Jag ser att BERT-familjen används som riktmärke överallt för NLP-uppgifter. Vilka är några viktiga styrkor för BERT jämfört med modeller som ELMO eller ULMFiT?
Svar
Anledningen till att du ser BERT och dess derivat som riktmärken beror troligen på att de är nyare än de andra modellerna som nämns och visar toppmodern prestanda på många NLP-uppgifter. Således, när forskare publicerar nya modeller de vill normalt jämföra dem med de nuvarande ledande modellerna där ute (dvs. BERT). Jag vet inte om det har gjorts en studie om styrkorna hos BERT jämfört med de andra metoderna, men att titta på deras skillnader kan ge viss inblick :
Verkligen dubbelriktad
BERT är djupt dubbelriktad på grund av sitt nya maskerade språk modelleringsteknik. ELMo å andra sidan använder en sammanfogning av höger-till-vänster och vänster-till-höger-LSTM och ULMFit använder en enkelriktad LSTM. Att ha dubbelriktat sammanhang bör i teorin generera mer exakta ordrepresentationer.
Modellinmatning
BERT symboliserar ord till underord (med WordPiece) och de ges sedan som input till modellen. ELMo använder teckenbaserad inmatning och ULMFit är ordbaserat. Det påstås att teckennivå språkmodeller inte fungerar lika bra som ordbaserade men ordbaserade modeller har frågan om ord som inte är ordförråd . BERT: s underordningsstrategi har det bästa av två världar.
Transformator vs. LSTM
Kärnan BERT använder transformatorer medan ELMo och ULMFit använder båda LSTM: ar. Förutom att dessa två tillvägagångssätt fungerar annorlunda, bör det också noteras att användning av transformatorer möjliggör parallellisering av träning, vilket är en viktig faktor när man arbetar med stora mängder data.
Den här listan fortsätter med saker som det corpus som modellen tränades på, de uppgifter som användes för att träna och mer. Så även om det är sant att BERT visar SOTA-prestanda i en mängd olika NLP-uppgifter, det finns tillfällen där andra modeller fungerar bättre. Därför, när du arbetar med ett problem är det en bra idé att testa några av dem för att se själv vilken som passar dina behov bättre.
Svar
BERT använder transformatorer för neuralt nätverk så att parallellisering kan vara till stor hjälp medan den andra (ELMO och ULMfit) använder LSTM .BERT har toppmodern prestanda i många av NLP-uppgifterna.
Men jag har hört att araBERT är mindre performant än hULMounA när det gäller arabisk sentimentanalys, korrigera mig om jag har fel pls