ELMO / ULMFiTに対するBERTの主な強みは何ですか?

BERTファミリーがNLPタスクのベンチマークとしてどこでも使用されているようです。 ELMOやULMFiTなどのモデルに対するBERTの主な長所は何ですか?

回答

BERTとそのベンチマークとしての派生物は、おそらく、言及されている他のモデルよりも新しく、多くのNLPタスクで最先端のパフォーマンスを示しているためです。彼らは通常、現在の主要なモデル(つまりBERT)と比較したい新しいモデルです。他の方法と比較したBERTの長所に関する研究があったかどうかはわかりませんが、それらの違いを見ると、ある程度の洞察が得られる可能性があります。 :

真に双方向
BERTは、その斬新なマスクされた言語により、深く双方向です。モデリング手法。一方、ELMoは右から左および左から右のLSTMの連結を使用し、ULMFitは単方向LSTMを使用します。双方向のコンテキストを持つことは、理論的には、より正確な単語表現を生成するはずです。

モデル入力
BERTは単語をサブ単語にトークン化します(WordPieceを使用)そして、それらはモデルへの入力として与えられます。 ELMoは文字ベースの入力を使用し、ULMFitは単語ベースです。 文字レベルの言語モデルは単語ベースの言語モデルほどには機能しないと言われていますが、単語ベースのモデルには語彙外の単語の問題があります。 BERTのサブワードアプローチは、両方の長所を享受しています。

トランスフォーマーとLSTM
BERTは本質的にトランスフォーマーを使用しますが、ELMoとULMFitはどちらもLSTMを使用します。これら2つのアプローチの動作が異なるという事実に加えて、トランスフォーマーを使用すると、トレーニングの並列化が可能になることにも注意してください。大量のデータ。

このリストには、モデルがトレーニングされたコーパス、トレーニングに使用されたタスクなどが含まれます。したがって、BERTがさまざまな分野でSOTAのパフォーマンスを示しているのは事実です。 NLPタスクでは、他のモデルのパフォーマンスが向上する場合があります。したがって、「問題に取り組んでいるときは、それらのいくつかをテストして、ニーズに合ったモデルを自分で確認することをお勧めします。

回答

BERTはニューラルネットワークのトランスフォーマーアーキテクチャを使用しているため、並列化は非常に役立ちますが、他の(ELMO ULMfit)はLSTMを使用します。BERTは多くのNLPタスクで最先端のパフォーマンスを発揮します。

しかし、アラビア語の感情分析に関しては、araBERTはhULMounAよりもパフォーマンスが低いと聞いています。訂正してください。私が間違っている場合

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です