Mitkä ovat BERT: n keskeisiä vahvuuksia ELMO / ULMFiT: ssä?

Katson, että BERT-perhettä käytetään vertailuarvona kaikkialla NLP-tehtävissä. Mitkä ovat BERTin keskeiset vahvuudet verrattuna malleihin, kuten ELMO tai ULMFiT?

Answer

Syy, miksi näet BERTin ja sen johdannaiset vertailukohteina johtuu todennäköisesti siitä, että se on uudempi kuin muut mainitut mallit ja osoittaa huipputason suorituskykyä monissa NLP-tehtävissä. Kun tutkijat julkaisevat uusia malleja he yleensä haluavat verrata niitä nykyisiin johtaviin malleihin siellä (eli BERT). En tiedä, onko BERTin vahvuuksista tehty tutkimus muihin menetelmiin verrattuna, mutta niiden erojen tarkastelu saattaa antaa jonkinlaisen käsityksen :

Todella kaksisuuntainen
BERT on syvä kaksisuuntainen uuden naamioidun kielensä ansiosta mallintamistekniikka. ELMo puolestaan käyttää oikealta vasemmalle ja vasemmalta oikealle LSTM: ien ketjutusta ja ULMFit käyttää yksisuuntaista LSTM: ää. Kaksisuuntaisen kontekstin saamisen pitäisi teoriassa tuottaa tarkempia sanaesityksiä.

Mallinsyöttö
BERT merkitsee sanat alisanoiksi (WordPiecen avulla) ja ne annetaan sitten malliksi. ELMo käyttää merkkipohjaista syötettä ja ULMFit on sanapohjainen. On väitetty, että merkkitason kielimallit eivät toimi yhtä hyvin kuin sanaperusteiset , mutta sanaperusteisissa malleissa on kysymys sanastoon kuulumattomista sanoista . BERT: n alisanojen lähestymistapa nauttii molempien maailmojen parhaat puolet.

Muuntaja vs. LSTM
BERT käyttää ytimessään muuntajia, kun taas ELMo ja ULMFit käyttävät molempia LSTM-moduuleja. Sen lisäksi, että nämä kaksi lähestymistapaa toimivat eri tavoin, on myös huomattava, että muuntajien käyttö mahdollistaa harjoittelun rinnakkaistamisen, mikä on tärkeä tekijä työskenneltäessä suuria määriä dataa.

Tämä luettelo jatkuu muun muassa mallin kanssa koulutetun korpusen, harjoituksiin käytettyjen tehtävien kanssa ja niin edelleen. Vaikka onkin totta, että BERT näyttää SOTA: n suorituskykyä useilla eri alueilla NLP-tehtävissä toisinaan muut mallit toimivat paremmin. Siksi kun työskentelet ongelman parissa, on hyvä testata muutama niistä, jotta näet itse, mikä sopii tarpeisiisi paremmin.

vastaus

BERT käyttää muuntajien hermoverkon arkkitehtuuria, joten rinnakkaistamisesta voi olla hyötyä, kun taas toisesta (ELMO ja ULMfit) käyttää LSTM: ää. BERT: llä on huipputasoinen suorituskyky monissa NLP-tehtävissä.

Mutta olen kuullut, että araBERT on vähemmän suorituskykyinen kuin hULMounA arabialaisen mielipiteen analyysin suhteen, korjaa minut jos väärin pls

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *