要約:

  • Meta Platforms Inc.は新しい機械学習手法であるmulti-token predictionを実装した4つの言語モデルをオープンソース化した。
  • これらのモデルは、1つのトークンではなく4つのトークンを生成することが特徴で、従来のLLMよりも高速かつ正確になるとMetaは考えている。
  • モデルはコード生成タスク向けで、それぞれ70億のパラメータを持ち、トークン数に応じてトレーニングされている。
  • Metaの研究者は、multi-token predictionアプローチが従来のLLM設計よりも優れたコード品質を生み出す理由は不明であると述べている。
  • Metaのモデルは、MBPPおよびHumanEvalのベンチマークテストで、1つずつトークンを生成するLLMよりも優れたパフォーマンスを示した。

感想:

Metaの新しいmulti-token prediction言語モデルは、従来のアプローチよりも高速かつ精度が向上する可能性があります。モデルの性能はMBPPやHumanEvalなどのベンチマークテストで検証され、従来のLLMよりも優れた結果を示しています。今後、この新しい手法がさらなる進化を遂げることが期待されます。


元記事: https://siliconangle.com/2024/07/04/meta-open-sources-new-multi-token-prediction-language-models/