Jakie są kluczowe zalety BERT w porównaniu z ELMO / ULMFiT?

Widzę, że rodzina BERT jest wszędzie używana jako punkt odniesienia dla zadań NLP. Jakie są główne zalety BERT w porównaniu z modelami takimi jak ELMO czy ULMFiT?

Odpowiedź

Powód, dla którego widzisz BERT i jego pochodnych jako wzorców prawdopodobnie dlatego, że jest nowszy niż inne wspomniane modele i pokazuje najnowocześniejsze wyniki wielu zadań NLP. Tak więc, gdy badacze publikują nowe modele, które zwykle chcą porównać z obecnymi wiodącymi modelami (np. BERT). Nie wiem, czy przeprowadzono badanie na temat mocnych stron BERT w porównaniu z innymi metodami, ale spojrzenie na ich różnice może dać pewien wgląd :

Prawdziwie dwukierunkowy
BERT jest głęboko dwukierunkowy dzięki nowemu, zamaskowanemu językowi technika modelowania. Z drugiej strony ELMo wykorzystuje konkatenację LSTM od prawej do lewej i od lewej do prawej, a ULMFit używa jednokierunkowego LSTM. W teorii kontekst dwukierunkowy powinien generować dokładniejsze reprezentacje słów.

Model wejściowy
BERT tokenizuje słowa na sub-słowa (za pomocą WordPiece) i są one następnie podawane jako dane wejściowe do modelu. ELMo wykorzystuje dane wejściowe oparte na znakach, a ULMFit jest oparte na słowach. Twierdzono, że modele języka na poziomie znaków nie działają tak dobrze, jak modele oparte na słowach , ale modele oparte na słowach mają problem ze słowami spoza słownictwa . Podejście podsłów BERT cieszy się tym, co najlepsze z obu światów.

Transformer kontra LSTM
W istocie BERT używa transformatorów, podczas gdy ELMo i ULMFit używają LSTM. Poza tym, że te dwa podejścia działają inaczej, należy również zauważyć, że użycie transformatorów umożliwia zrównoleglenie treningu, co jest ważnym czynnikiem podczas pracy z duże ilości danych.

Ta lista obejmuje takie rzeczy, jak korpus, na podstawie którego trenowano model, zadania używane do trenowania i nie tylko. Tak więc prawdą jest, że BERT pokazuje wyniki SOTA w różnych W zadaniach NLP są chwile, w których inne modele radzą sobie lepiej. Dlatego, gdy „pracujesz nad problemem, dobrze jest przetestować kilka z nich i samemu przekonać się, który z nich lepiej odpowiada Twoim potrzebom.

Odpowiedź

BERT wykorzystuje architekturę transformatorów sieci neuronowej, więc równoległość może być bardzo pomocna, podczas gdy inne (ELMO i ULMfit) używa LSTM .BERT ma najnowocześniejsze wyniki w wielu zadaniach NLP.

Ale słyszałem, że araBERT jest mniej wydajny niż hULMounA, jeśli chodzi o analizę nastrojów arabskich, popraw mnie jeśli się mylę, proszę

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *