Hvad er nogle vigtige styrker af BERT over ELMO / ULMFiT?

Jeg ser, at BERT-familien bruges som benchmark overalt for NLP-opgaver. Hvad er nogle vigtige styrker af BERT i forhold til modeller som ELMO eller ULMFiT?

Svar

Årsagen til at du ser BERT og dens derivater som benchmarks skyldes sandsynligvis, at de er nyere end de andre nævnte modeller og viser state-of-the-art performance på mange NLP-opgaver. Således når forskere offentliggør nye modeller, de vil normalt sammenligne dem med de nuværende førende modeller derude (dvs. BERT). Jeg ved ikke, om der har været en undersøgelse af styrkerne ved BERT sammenlignet med de andre metoder, men at se på deres forskelle kan give noget indblik :

Virkelig tovejs
BERT er dybt tovejs på grund af sit nye maskerede sprog modelleringsteknik. ELMo på den anden side bruger en sammenkædning af højre mod venstre og venstre mod højre LSTMer, og ULMFit bruger en ensrettet LSTM. At have tovejskontekst skal i teorien generere mere nøjagtige ordrepræsentationer.

Modelinput
BERT symboliserer ord til underord (ved hjælp af WordPiece) og disse gives derefter som input til modellen. ELMo bruger tegnbaseret input, og ULMFit er ordbaseret. Det hævdes, at tegnniveaus sprogmodeller ikke fungerer så godt som ordbaserede , men ordbaserede modeller har spørgsmålet om ord uden for ordforrådet . BERTs tilgang til underord nyder det bedste fra begge verdener.

Transformer vs. LSTM
Grundlæggende bruger BERT transformatorer, mens ELMo og ULMFit begge bruger LSTMer. Udover det faktum, at disse to fremgangsmåder fungerer forskelligt, skal det også bemærkes, at brug af transformere muliggør parallelisering af træning, som er en vigtig faktor, når man arbejder store mængder data.

Denne liste fortsætter med ting som det korpus, modellen blev trænet på, de opgaver, der blev brugt til at træne og mere. Så selvom det er sandt, at BERT viser SOTA-ydeevne på tværs af en række forskellige NLP-opgaver, der er tidspunkter, hvor andre modeller fungerer bedre. Derfor, når du arbejder på et problem, er det en god ide at teste et par af dem for at se, hvilken der passer bedst til dine behov.

Svar

BERT bruger transformatorer til at oprette neurale netværk, så parallelisering kan være meget nyttigt, mens den anden (ELMO og ULMfit) bruger LSTM .BERT har avanceret præformance i mange af NLP-opgaverne.

Men jeg har hørt, at araBERT er mindre performant end hULMounA, når det kommer til arabisk sentimentanalyse, ret mig hvis jeg har forkert pls

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *