BERT 제품군이 NLP 작업의 모든 곳에서 벤치 마크로 사용되는 것을 확인했습니다. ELMO 또는 ULMFiT와 같은 모델에 비해 BERT의 주요 강점은 무엇입니까?
답변
BERT를 보게되는 이유와 벤치 마크로서의 파생물은 아마도 언급 된 다른 모델보다 더 최신이고 많은 NLP 작업에서 최신 성능 을 보여주기 때문일 것입니다. 따라서 연구자들이 발표 할 때 그들은 일반적으로 그것들을 현재의 주요 모델 (예 : BERT)과 비교하고 싶어합니다. 다른 방법과 비교하여 BERT의 강점에 대한 연구가 있었는지 모르겠지만 차이점을 보면 약간의 통찰력을 얻을 수 있습니다 :
Truly Bidirectional
BERT는 참신한 마스킹 된 언어로 인해 깊은 양방향입니다. 모델링 기술. 반면에 ELMo는 오른쪽에서 왼쪽 및 왼쪽에서 오른쪽 LSTM의 연결을 사용하고 ULMFit은 단방향 LSTM을 사용합니다. 이론적으로 양방향 컨텍스트를 갖는 것은 더 정확한 단어 표현을 생성해야합니다.
모델 입력
BERT는 단어를 하위 단어로 토큰 화합니다 (WordPiece 사용). 그런 다음 모델에 대한 입력으로 제공됩니다. ELMo는 문자 기반 입력을 사용하고 ULMFit은 단어 기반입니다. 문자 수준 언어 모델은 단어 기반 모델만큼 성능이 좋지 않지만 단어 기반 모델에는 어휘 외 단어 문제가 있습니다. . BERT의 하위 단어 접근 방식은 두 가지 장점을 모두 제공합니다.
Transformer vs. LSTM
BERT는 본질적으로 트랜스포머를 사용하는 반면 ELMo와 ULMFit은 모두 LSTM을 사용합니다.이 두 가지 접근 방식이 다르게 작동한다는 사실 외에도 트랜스포머를 사용하면 작업 할 때 중요한 요소 인 훈련 병렬화가 가능하다는 점에 유의해야합니다. 많은 양의 데이터.
이 목록은 모델이 학습 된 말뭉치, 학습에 사용 된 작업 등으로 계속됩니다. BERT가 다양한 데이터에 걸쳐 SOTA 성능을 보여주는 것은 사실입니다. NLP 작업에는 다른 모델이 더 잘 수행되는 경우가 있습니다. 따라서 “문제에 대해 작업 할 때 몇 가지를 테스트하여 자신의 요구에 더 적합한 것을 직접 확인하는 것이 좋습니다.
Answer
BERT는 신경망의 트랜스포머 아키텍처를 사용하므로 병렬화가 매우 유용 할 수 있지만 다른 것 (ELMO ULMfit)은 LSTM을 사용합니다. BERT는 많은 NLP 작업에서 최첨단 성능을 가지고 있습니다.
하지만 아랍어 감성 분석에있어서 araBERT가 hULMounA보다 성능이 떨어진다고 들었습니다. 내가 틀렸다면 pls