Văd că familia BERT este folosită ca etalon peste tot pentru sarcinile NLP. Care sunt câteva puncte forte ale BERT față de modele precum ELMO sau ULMFiT?
Răspuns
Motivul pentru care vedeți BERT și derivatele ca etaloane de referință se datorează probabil faptului că este mai nou decât celelalte modele menționate și prezintă performanță de ultimă generație în multe sarcini NLP. Astfel, atunci când cercetătorii publică noi modele pe care în mod normal vor să le compare cu modelele actuale de vârf (de exemplu, BERT). Nu știu dacă a existat un studiu cu privire la punctele forte ale BERT în comparație cu celelalte metode, dar examinarea diferențelor lor ar putea oferi o oarecare perspectivă :
Cu adevărat bidirecțional
BERT este profund bidirecțional datorită noului său limbaj mascat tehnica de modelare. ELMo, pe de altă parte, folosește o concatenare de LSTM de la dreapta la stânga și de la stânga la dreapta, iar ULMFit utilizează un LSTM unidirecțional. Având context bidirecțional ar trebui, în teorie, să genereze o reprezentare mai precisă a cuvintelor.
Intrare model
BERT simbolizează cuvintele în sub-cuvinte (folosind WordPiece) iar acestea sunt apoi date ca intrare în model. ELMo folosește intrări bazate pe caractere, iar ULMFit se bazează pe cuvinte. S-a susținut că modelele de limbaj la nivel de caractere nu sunt performante, precum și cele bazate pe cuvinte , dar modelele bazate pe cuvinte au problema cuvintelor în afara vocabularului . Abordarea sub-cuvintelor BERT se bucură de cele mai bune dintre ambele lumi.
Transformator vs. LSTM
În inima sa, BERT folosește transformatoare, în timp ce ELMo și ULMFit folosesc ambele LSTM-uri. Pe lângă faptul că aceste două abordări funcționează diferit, trebuie remarcat și faptul că utilizarea transformatoarelor permite paralelizarea antrenamentului, care este un factor important atunci când lucrați cu cantități mari de date.
Această listă continuă cu lucruri precum corpusul pe care a fost instruit modelul, sarcinile folosite pentru antrenament și multe altele. Deci, deși este adevărat că BERT arată performanța SOTA într-o varietate de Sarcini NLP, există momente în care alte modele au performanțe mai bune. Prin urmare, atunci când lucrați la o problemă, este o idee bună să testați câteva dintre ele și să vedeți singuri care dintre ele se potrivește mai bine nevoilor dvs.
Răspuns
BERT folosește transformatoare arhitectura rețelei neuronale, astfel paralelizarea poate fi foarte utilă în timp ce cealaltă (ELMO și ULMfit) folosește LSTM. BERT are o performanță de ultimă generație în multe dintre sarcinile NLP.
Dar am auzit că araBERT este mai puțin performant decât hULMounA când vine vorba de analiza sentimentului arab, corectează-mă dacă „greșesc pls