Jaké jsou klíčové silné stránky BERT přes ELMO / ULMFiT?

Vidím, že rodina BERT se používá jako měřítko všude pro úkoly NLP. Jaké jsou klíčové silné stránky BERT oproti modelům jako ELMO nebo ULMFiT?

Odpověď

Důvod, proč vidíte BERT a jeho deriváty jako měřítka je pravděpodobně proto, že je novější než ostatní zmíněné modely a vykazuje nejmodernější výkon u mnoha úkolů NLP. Když tedy vědci publikují nové modely, které je obvykle chtějí porovnat se současnými předními modely (např. BERT). Nevím, zda byla provedena studie o silných stránkách BERT ve srovnání s ostatními metodami, ale pohled na jejich rozdíly by mohl poskytnout určitý vhled :

Skutečně obousměrný
BERT je díky svému novému maskovanému jazyku hluboce obousměrný technika modelování. ELMo na druhé straně používá zřetězení LSTM zprava doleva a zleva doprava a ULMFit používá jednosměrný LSTM. Mít obousměrný kontext by teoreticky mělo generovat přesnější reprezentace slov.

Zadání modelu
BERT tokenizuje slova do dílčích slov (pomocí WordPiece) a ty jsou poté uvedeny jako vstup do modelu. ELMo používá znakový vstup a ULMFit je založen na slovech. Tvrdí se, že jazykové modely na úrovni znaků nefungují stejně dobře jako slovní , ale slovní modely mají problém slov mimo slovní zásobu . Přístup dílčích slov BERT si užívá to nejlepší z obou světů.

Transformátor vs. LSTM
BERT ve své podstatě používá transformátory, zatímco ELMo a ULMFit používají LSTM. Kromě toho, že tyto dva přístupy fungují odlišně, je třeba také poznamenat, že použití transformátorů umožňuje paralelizaci tréninku, což je důležitý faktor při práci s velké množství dat.

Tento seznam pokračuje ve věcech, jako je korpus, na kterém byl model trénován, úkoly používané k trénování a další. Takže i když je pravda, že BERT ukazuje výkon SOTA napříč různými Úkoly NLP jsou chvíle, kdy si ostatní modely vedou lépe. Proto, když pracujete na problému, je dobré otestovat několik z nich, abyste se přesvědčili, který z nich lépe vyhovuje vašim potřebám.

Odpověď

BERT používá transformátorovou architekturu neurální sítě, takže paralelizace může být velmi užitečná, zatímco druhá (ELMO a ULMfit) používá LSTM .BERT má nejmodernější předpoklady v mnoha úkolech NLP.

Ale slyšel jsem, že araBERT je méně výkonný než hULMounA, pokud jde o analýzu arabského sentimentu, opravte mě pokud se mýlím pls

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *