Úgy látom, hogy a BERT családot mindenhol referenciaértékként használják az NLP feladatokhoz. Milyen fő erősségei vannak a BERT-nek az olyan modellekkel szemben, mint az ELMO vagy az ULMFiT?
Válasz
Az ok, amiért látja a BERT-et és annak a derivatívák mint referenciaértékek valószínűleg azért vannak, mert újak, mint a többi említett modell, és sok NLP feladatnál a legkorszerűbb teljesítményt mutatják. Így amikor a kutatók publikálják új modellek, amelyeket rendszerint össze akarnak hasonlítani a jelenlegi vezető modellekkel (pl. a BERT-kel). Nem tudom, hogy a BERT erősségeiről szóló tanulmány készült-e a többi módszerhez képest, de a különbségeik vizsgálata némi betekintést nyújthat :
Valóban kétirányú
A BERT újszerű, álarcos nyelve miatt mélyen kétirányú modellezési technika. Az ELMo ezzel szemben a jobbról balra és a balról jobbra LSTM-ek összefűzését, az ULMFit pedig egyirányú LSTM-et használ. A kétirányú kontextus megléte elméletileg pontosabb szóábrázolást generál.
Modellbemenet
A BERT a szavakat részszavakká kódolja (WordPiece használatával) és ezeket azután a modell inputjaként adják meg. Az ELMo karakteralapú bevitelt használ, az ULMFit pedig szóalapú. Azt állították, hogy a karakterszintű nyelvmodellek nem teljesítenek ugyanúgy, mint a szóalapúak , de a szóalapú modellek a szókincsen kívüli szavak kérdését jelentik . A BERT alszavas megközelítése mindkét világ legjobbjait élvezi.
Transformer vs. LSTM
A BERT lényegében transzformátorokat használ, míg az ELMo és az ULMFit egyaránt LSTM-eket használ. Amellett, hogy ez a két megközelítés eltérõen mûködik, azt is meg kell jegyezni, hogy a transzformátorok használata lehetõvé teszi az oktatás párhuzamosítását, ami fontos tényezõ a nagy mennyiségű adat.
Ez a lista olyan dolgokkal folytatódik, mint például a korpusz, amelyre a modellt betanították, az edzéshez használt feladatok és még sok más. Tehát bár igaz, hogy a BERT a SOTA teljesítményét mutatja be különféle területeken NLP feladatok, vannak olyan esetek, amikor más modellek jobban teljesítenek. Ezért amikor egy problémán dolgozik, célszerű néhányat kipróbálni, hogy magának is lássa, melyik felel meg jobban az Ön igényeinek.
Válasz
A BERT transzformátorok neurális hálózatának archtecture-jét használja, így a párhuzamosítás nagyon hasznos lehet, míg a másik (ELMO és az ULMfit) az LSTM-et használja. A BBERT a NLP számos feladatában a legkorszerűbb előképességgel rendelkezik. ha tévedek pls