Was sind einige der Hauptstärken von BERT gegenüber ELMO / ULMFiT?

Ich sehe, dass die BERT-Familie überall als Benchmark für NLP-Aufgaben verwendet wird. Was sind einige der Hauptstärken von BERT gegenüber Modellen wie ELMO oder ULMFiT?

Antwort

Der Grund, warum Sie BERT und seine Produkte sehen Derivate als Benchmark sind wahrscheinlich darauf zurückzuführen, dass sie neuer als die anderen genannten Modelle sind und die Leistung auf dem neuesten Stand der Technik bei vielen NLP-Aufgaben zeigen. Daher, wenn Forscher veröffentlichen Neue Modelle, die sie normalerweise mit den derzeit führenden Modellen vergleichen möchten (z. B. BERT). Ich weiß nicht, ob es eine Studie über die Stärken von BERT im Vergleich zu den anderen Methoden gegeben hat, aber die Betrachtung ihrer Unterschiede könnte einen Einblick geben :

Wirklich bidirektional
BERT ist aufgrund seiner neuartigen maskierten Sprache zutiefst bidirektional Modellierungstechnik. ELMo verwendet dagegen eine Verkettung von LSTMs von rechts nach links und von links nach rechts, und ULMFit verwendet ein unidirektionales LSTM. Ein bidirektionaler Kontext sollte theoretisch genauere Wortdarstellungen erzeugen.

Modelleingabe
BERT tokenisiert Wörter in Unterwörter (mit WordPiece) und diese werden dann als Eingabe in das Modell gegeben. ELMo verwendet eine zeichenbasierte Eingabe und ULMFit ist wortbasiert. Es wurde behauptet, dass Sprachmodelle auf Zeichenebene nicht so gut funktionieren wie wortbasierte , aber wortbasierte Modelle haben das Problem von Wörtern außerhalb des Wortschatzes . Der Subwort-Ansatz von BERT bietet das Beste aus beiden Welten.

Transformer vs. LSTM
Im Kern verwendet BERT Transformatoren, während ELMo und ULMFit beide LSTMs verwenden. Neben der Tatsache, dass diese beiden Ansätze unterschiedlich funktionieren, sollte auch beachtet werden, dass die Verwendung von Transformatoren die Parallelisierung des Trainings ermöglicht, was ein wichtiger Faktor bei der Arbeit mit ist große Datenmengen.

Diese Liste enthält Dinge wie den Korpus, auf dem das Modell trainiert wurde, die Aufgaben, die zum Trainieren verwendet wurden, und vieles mehr. Zwar zeigt BERT die SOTA-Leistung in einer Vielzahl von Daten Bei NLP-Aufgaben gibt es Zeiten, in denen andere Modelle eine bessere Leistung erbringen. Wenn Sie also an einem Problem arbeiten, ist es eine gute Idee, einige davon zu testen, um selbst zu sehen, welches Ihren Anforderungen besser entspricht.

Antwort

BERT verwendet die Transformatorarchitektur des neuronalen Netzwerks, sodass die Parallelisierung sehr hilfreich sein kann, während die andere (ELMO) und ULMfit) verwendet LSTM .BERT hat in vielen NLP-Aufgaben eine hochmoderne Leistung.

Aber ich habe gehört, dass araBERT in Bezug auf die Analyse der arabischen Stimmung weniger performant ist als hULMounA, korrigieren Sie mich wenn ich falsch liege pls

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.