Veo que la familia BERT se está utilizando como punto de referencia en todas partes para las tareas de PNL. ¿Cuáles son algunas de las fortalezas clave de BERT sobre modelos como ELMO o ULMFiT?
Respuesta
La razón por la que está viendo BERT y su derivados como puntos de referencia probablemente se deba a que es más nuevo que los otros modelos mencionados y muestra rendimiento de vanguardia en muchas tareas de PNL. Por lo tanto, cuando los investigadores publican nuevos modelos que normalmente quieren compararlos con los modelos líderes actuales (es decir, BERT). No sé si ha habido un estudio sobre las fortalezas de BERT en comparación con los otros métodos, pero observar sus diferencias podría dar una idea :
Verdaderamente bidireccional
BERT es profundamente bidireccional debido a su novedoso lenguaje enmascarado técnica de modelado. ELMo, por otro lado, usa una concatenación de LSTM de derecha a izquierda y de izquierda a derecha y ULMFit usa un LSTM unidireccional. Tener un contexto bidireccional debería, en teoría, generar representaciones de palabras más precisas.
Modelo de entrada
BERT convierte las palabras en subpalabras (usando WordPiece) y luego se dan como entrada al modelo. ELMo utiliza entrada basada en caracteres y ULMFit está basada en palabras. Se ha afirmado que los modelos de lenguaje a nivel de caracteres no funcionan tan bien como los basados en palabras , pero los modelos basados en palabras tienen el problema de las palabras sin vocabulario. . El enfoque de las subpalabras de BERT disfruta de lo mejor de ambos mundos.
Transformer vs. LSTM
En esencia, BERT utiliza transformadores, mientras que ELMo y ULMFit utilizan LSTM. Además del hecho de que estos dos enfoques funcionan de manera diferente, también debe tenerse en cuenta que el uso de transformadores permite la paralelización del entrenamiento, lo cual es un factor importante cuando se trabaja con grandes cantidades de datos.
Esta lista continúa con cosas como el corpus en el que se entrenó el modelo, las tareas utilizadas para entrenar y más. Por lo tanto, si bien es cierto que BERT muestra el rendimiento de SOTA en una variedad de Tareas de PNL, hay momentos en los que otros modelos funcionan mejor. Por lo tanto, cuando esté trabajando en un problema, es una buena idea probar algunos de ellos para ver por sí mismo cuál se adapta mejor a sus necesidades.
Respuesta
BERT utiliza la arquitectura de transformadores de la red neuronal, por lo que la paralelización puede ser muy útil, mientras que el otro (ELMO y ULMfit) usa LSTM .BERT tiene un desempeño de vanguardia en muchas de las tareas de PNL.
Pero he escuchado que araBERT es menos eficiente que hULMounA cuando se trata de análisis de sentimiento árabe, corrígeme si me equivoco por favor