Quelles sont les principales forces de BERT par rapport à ELMO / ULMFiT?

Je vois que la famille BERT est utilisée partout comme référence pour les tâches PNL. Quelles sont les principales forces de BERT par rapport à des modèles comme ELMO ou ULMFiT?

Réponse

La raison pour laquelle vous « voyez BERT et ses dérivés comme points de repère est probablement dû au fait quil est plus récent que les autres modèles mentionnés et montre des performances de pointe sur de nombreuses tâches de PNL. Ainsi, lorsque les chercheurs publient nouveaux modèles, ils veulent normalement les comparer aux principaux modèles actuels (par exemple BERT). Je ne sais pas sil y a eu une étude sur les points forts de BERT par rapport aux autres méthodes, mais regarder leurs différences pourrait donner un aperçu :

Vraiment bidirectionnel
BERT est profondément bidirectionnel en raison de son nouveau langage masqué technique de modélisation. ELMo, dautre part, utilise une concaténation de LSTM de droite à gauche et de gauche à droite et ULMFit utilise un LSTM unidirectionnel. Le fait davoir un contexte bidirectionnel devrait, en théorie, générer des représentations de mots plus précises.

Entrée du modèle
BERT convertit les mots en sous-mots (en utilisant WordPiece) et ceux-ci sont ensuite donnés en entrée du modèle. ELMo utilise une entrée basée sur des caractères et ULMFit est basé sur des mots. Il a été affirmé que les modèles de langage au niveau des caractères ne fonctionnent pas aussi bien que ceux basés sur des mots , mais les modèles basés sur des mots posent le problème des mots hors vocabulaire. . Lapproche des sous-mots de BERT bénéficie du meilleur des deux mondes.

Transformer vs LSTM
En son cœur, BERT utilise des transformateurs alors quELMo et ULMFit utilisent tous deux des LSTM. Outre le fait que ces deux approches fonctionnent différemment, il convient également de noter que lutilisation de transformateurs permet la parallélisation de la formation qui est un facteur important lorsque lon travaille de grandes quantités de données.

Cette liste comprend des éléments tels que le corpus sur lequel le modèle a été formé, les tâches utilisées pour lentraînement et plus encore. Donc, sil est vrai que BERT montre les performances SOTA sur une variété de Tâches PNL, il y a des moments où dautres modèles fonctionnent mieux. Par conséquent, lorsque vous travaillez sur un problème, cest une bonne idée de tester quelques-uns dentre eux pour voir par vous-même lequel répond le mieux à vos besoins.

Réponse

BERT utilise des transformateurs archtecture du réseau neuronal donc la parallélisation peut être très utile alors que lautre (ELMO et ULMfit) utilise LSTM .BERT a des performances de pointe dans de nombreuses tâches de PNL.

Mais jai entendu dire que araBERT est moins performant que hULMounA en ce qui concerne lanalyse des sentiments arabes, corrigez-moi si je me trompe, pls

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *