Ik zie dat de BERT-familie overal als benchmark wordt gebruikt voor NLP-taken. Wat zijn enkele belangrijke sterke punten van BERT ten opzichte van modellen als ELMO of ULMFiT?
Antwoord
De reden waarom u “BERT en zijn derivaten als benchmarks is waarschijnlijk omdat het nieuwer is dan de andere genoemde modellen en state-of-the-art prestaties vertoont op veel NLP-taken. Dus wanneer onderzoekers publiceren nieuwe modellen die ze normaal gesproken willen vergelijken met de huidige toonaangevende modellen die er zijn (bijv. BERT). Ik weet niet of er een onderzoek is gedaan naar de sterke punten van BERT in vergelijking met de andere methoden, maar kijken naar hun verschillen kan enig inzicht geven :
Echt bidirectioneel
BERT is sterk bidirectioneel vanwege zijn nieuwe gemaskeerde taal modelleertechniek. ELMo daarentegen gebruikt een aaneenschakeling van rechts-naar-links en links-naar-rechts LSTMs en ULMFit gebruikt een unidirectionele LSTM. Het hebben van een bidirectionele context zou in theorie nauwkeurigere woordrepresentaties moeten genereren.
Modelinvoer
BERT tokeniseert woorden in subwoorden (met WordPiece) en die worden dan als input aan het model gegeven. ELMo gebruikt tekengebaseerde invoer en ULMFit is woordgebaseerd. Er wordt beweerd dat taalmodellen op tekenniveau niet zo goed presteren als op woord gebaseerde modellen , maar op woord gebaseerde modellen hebben het probleem van woorden die niet in de woordenschat voorkomen . BERTs benadering met subwoorden heeft het beste van twee werelden.
Transformator vs. LSTM
In de kern gebruikt BERT transformatoren, terwijl ELMo en ULMFit beide LSTMs gebruiken. Naast het feit dat deze twee benaderingen verschillend werken, moet ook worden opgemerkt dat het gebruik van transformatoren parallellisatie van training mogelijk maakt, wat een belangrijke factor is bij het werken met grote hoeveelheden gegevens.
Deze lijst gaat verder met zaken als het corpus waarop het model is getraind, de taken die worden gebruikt om te trainen en meer. Dus hoewel het waar is dat BERT SOTA-prestaties laat zien voor verschillende NLP-taken, er zijn momenten waarop andere modellen beter presteren. Daarom, wanneer u aan een probleem werkt, is het een goed idee om er een paar te testen om zelf te zien welke het beste bij u past.
Answer
BERT gebruikt transformatoren archtectuur van neuraal netwerk, dus parallellisatie kan zeer nuttig zijn, terwijl de andere (ELMO en ULMfit) gebruikt LSTM .BERT heeft state-of-art prestaties in veel van de NLP-taken.
Maar ik heb gehoord dat araBERT minder performant is dan hULMounA als het gaat om Arabische sentimentanalyse, corrigeer mij als ik het mis heb pls