Quais são alguns dos principais pontos fortes do BERT em relação ao ELMO / ULMFiT?

Vejo que a família BERT está sendo usada como referência em todos os lugares para tarefas de PNL. Quais são alguns dos principais pontos fortes do BERT em relação a modelos como ELMO ou ULMFiT?

Resposta

O motivo pelo qual você está vendo BERT e seus derivados como benchmarks provavelmente porque são mais novos do que os outros modelos mencionados e mostram desempenho de ponta em muitas tarefas de PNL. Assim, quando os pesquisadores publicam novos modelos, eles normalmente desejam compará-los com os modelos líderes atuais por aí (ou seja, BERT). Não sei se houve um estudo sobre os pontos fortes do BERT em comparação com os outros métodos, mas olhar para suas diferenças pode fornecer alguns insights :

Verdadeiramente bidirecional
BERT é profundamente bidirecional devido à sua nova linguagem mascarada técnica de modelagem. O ELMo, por outro lado, usa uma concatenação de LSTMs da direita para a esquerda e da esquerda para a direita e o ULMFit usa um LSTM unidirecional. Ter contexto bidirecional deveria, em teoria, gerar representações de palavras mais precisas.

Modelo de entrada
BERT tokeniza palavras em subpalavras (usando WordPiece) e esses são fornecidos como entrada para o modelo. ELMo usa entrada baseada em caracteres e ULMFit é baseado em palavras. Tem sido afirmado que modelos de linguagem de nível de caractere não funcionam tão bem quanto os baseados em palavras , mas os modelos baseados em palavras têm o problema de palavras fora do vocabulário . A abordagem de subpalavras de BERT tem o melhor dos dois mundos.

Transformer vs. LSTM
Basicamente, o BERT usa transformadores, enquanto que ELMo e ULMFit usam LSTMs. Além do fato de que essas duas abordagens funcionam de forma diferente, também deve ser notado que o uso de transformadores permite a paralelização do treinamento, o que é um fator importante ao trabalhar com grandes quantidades de dados.

Essa lista continua com coisas como o corpus em que o modelo foi treinado, as tarefas usadas para treinar e muito mais. Portanto, embora seja verdade que o BERT mostra o desempenho SOTA em uma variedade de Tarefas de PNL, há momentos em que outros modelos têm melhor desempenho. Portanto, quando você está trabalhando em um problema, é uma boa ideia testar alguns deles para ver por si mesmo qual atende melhor às suas necessidades.

Resposta

O BERT usa a arquitetura de transformadores de rede neural, de modo que a paralelização pode ser muito útil, enquanto o outro (ELMO e ULMfit) usa LSTM .BERT tem desempenho avançado em muitas das tarefas de PNL.

Mas eu ouvi que araBERT tem menos desempenho que hULMounA quando se trata de análise de sentimento árabe, corrija-me se eu estiver errado, pls

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *