Jeg ser at BERT-familien blir brukt som målestokk overalt for NLP-oppgaver. Hva er noen viktige styrker av BERT i forhold til modeller som ELMO eller ULMFiT?
Svar
Årsaken til at du ser BERT og dens derivater som målestokk er sannsynligvis fordi den er nyere enn de andre nevnte modellene og viser toppmoderne ytelse på mange NLP-oppgaver. Når forskere publiserer nye modeller vil de normalt sammenligne dem med de nåværende ledende modellene der ute (dvs. BERT). Jeg vet ikke om det har vært en studie om styrkene til BERT sammenlignet med de andre metodene, men å se på forskjellene deres kan gi litt innsikt :
Virkelig toveis
BERT er dypt toveis på grunn av sitt nye maskerte språk modelleringsteknikk. ELMo bruker derimot en sammenkobling av høyre mot venstre og venstre mot høyre LSTM og ULMFit bruker en ensrettet LSTM. Å ha toveiskontekst bør i teorien generere mer nøyaktige ordrepresentasjoner.
Modellinngang
BERT symboliserer ord til underord (ved hjelp av WordPiece) og de blir deretter gitt som input til modellen. ELMo bruker tegnbasert inngang og ULMFit er ordbasert. Det er blitt hevdet at tegnnivå språkmodeller ikke utfører så vel som ordbaserte , men ordbaserte modeller har problemet med ord uten ordforråd. . BERTs tilrettelegging av underordene nyter det beste fra begge verdener.
Transformer vs. LSTM
I hjertet bruker BERT transformatorer, mens ELMo og ULMFit begge bruker LSTMer. I tillegg til at disse to tilnærmingene fungerer annerledes, bør det også bemerkes at bruk av transformatorer muliggjør parallellisering av trening som er en viktig faktor når du arbeider store mengder data.
Denne listen fortsetter med ting som corpus modellen ble trent på, oppgavene som ble brukt til å trene og mer. Så selv om det er sant at BERT viser SOTA-ytelse på tvers av en rekke NLP-oppgaver, det er tider der andre modeller fungerer bedre. Derfor, når du jobber med et problem, er det en god ide å teste noen av dem for å se hvilken som passer dine behov bedre.
Svar
BERT bruker transformatorer som bygger på nevrale nettverk, slik at parallellisering kan være veldig nyttig, mens den andre (ELMO og ULMfit) bruker LSTM .BERT har toppmoderne ytelse i mange av NLP-oppgavene.
Men jeg har hørt at araBERT er mindre performant enn hULMounA når det gjelder arabisk sentimentanalyse, rett meg hvis jeg tar feil