要約:

  • Metaは新しいAIアーキテクチャであるByte Latent Transformer(BLT)を開発しました。
  • BLTは、今日の言語モデルの基本的な問題である、個々の文字との信頼性のある作業ができないことを解決します。
  • BLTはトークンではなく、バイトレベルでデータを処理します。
  • BLTは、個々の文字を理解するタスクにおいて、16倍のデータにトレーニングされたLlama 3.1よりも8億のパラメータで優れたパフォーマンスを発揮します。
  • Metaの研究チームは、パッチとモデルのサイズを同時に拡大することで、効率を最大50%向上させる方法を発見しました。
  • BLTは、異常や破損したテキストを扱う能力に優れており、ノイズや他の干渉があってもパフォーマンスを維持します。

考察:

BLTはトークンの代わりにバイトレベルでデータを処理する新しいアーキテクチャであり、個々の文字を理解するタスクにおいて優れたパフォーマンスを示します。Metaの研究チームが両方のパッチとモデルのサイズを同時に拡大することで、効率を向上させる方法を見つけたことは注目に値します。さらに、異常や破損したテキストを扱う能力を持つBLTは、言語モデルの進化において重要な役割を果たす可能性があります。

元記事: https://the-decoder.com/metas-new-llm-architecture-tackles-fundamental-flaw-in-how-language-models-process-text/