Vedo che la famiglia BERT viene utilizzata ovunque come punto di riferimento per le attività di PNL. Quali sono alcuni dei principali punti di forza di BERT rispetto a modelli come ELMO o ULMFiT?
Risposta
Il motivo per cui vedi BERT e il suo derivati come benchmark è probabilmente perché è più recente degli altri modelli menzionati e mostra prestazioni allavanguardia su molte attività di PNL. Pertanto, quando i ricercatori pubblicano nuovi modelli che normalmente vogliono confrontarli con gli attuali modelli leader là fuori (cioè BERT). Non so se cè stato uno studio sui punti di forza di BERT rispetto agli altri metodi, ma esaminare le loro differenze potrebbe dare qualche intuizione :
Veramente bidirezionale
BERT è profondamente bidirezionale grazie al suo nuovo linguaggio mascherato tecnica di modellazione. ELMo daltra parte utilizza una concatenazione di LSTM da destra a sinistra e da sinistra a destra e ULMFit utilizza un LSTM unidirezionale. Avere un contesto bidirezionale dovrebbe, in teoria, generare rappresentazioni di parole più accurate.
Input modello
BERT trasforma le parole in sottoparole (utilizzando WordPiece) e quelli vengono quindi forniti come input al modello. ELMo utilizza linput basato sui caratteri e ULMFit è basato sulle parole. È stato affermato che i modelli linguistici a livello di carattere non funzionano come quelli basati su parole , ma i modelli basati su parole presentano il problema di parole fuori dal vocabolario . Lapproccio con le parole secondarie di BERT gode del meglio di entrambi i mondi.
Transformer vs. LSTM
Fondamentalmente BERT utilizza trasformatori mentre ELMo e ULMFit utilizzano entrambi LSTM. Oltre al fatto che questi due approcci funzionano in modo diverso, va anche notato che lutilizzo di trasformatori consente la parallelizzazione della formazione, che è un fattore importante quando si lavora con grandi quantità di dati.
Questo elenco continua con cose come il corpus su cui è stato addestrato il modello, le attività utilizzate per laddestramento e altro ancora. Quindi, sebbene sia vero che BERT mostra le prestazioni SOTA in una varietà di Compiti della PNL, ci sono momenti in cui altri modelli si comportano meglio. Pertanto, quando stai lavorando su un problema è una buona idea testarne alcuni per vedere di persona quale si adatta meglio alle tue esigenze.
Risposta
BERT utilizza larchitettura dei trasformatori della rete neurale, quindi la parallelizzazione può essere molto utile mentre laltra (ELMO e ULMfit) utilizza LSTM .BERT ha prestazioni allavanguardia in molte delle attività di PNL.
Ma ho sentito che araBERT è meno performante di hULMounA quando si tratta di analisi del sentiment arabo, correggimi se sbaglio, per favore