要約:
- Meta Platforms Inc.は新しい機械学習手法であるmulti-token predictionを実装した4つの言語モデルをオープンソース化した。
- これらのモデルは、1つのトークンではなく4つのトークンを生成することが特徴で、従来のLLMよりも高速かつ正確になるとMetaは考えている。
- モデルはコード生成タスク向けで、それぞれ70億のパラメータを持ち、トークン数に応じてトレーニングされている。
- Metaの研究者は、multi-token predictionアプローチが従来のLLM設計よりも優れたコード品質を生み出す理由は不明であると述べている。
- Metaのモデルは、MBPPおよびHumanEvalのベンチマークテストで、1つずつトークンを生成するLLMよりも優れたパフォーマンスを示した。
感想:
Metaの新しいmulti-token prediction言語モデルは、従来のアプローチよりも高速かつ精度が向上する可能性があります。モデルの性能はMBPPやHumanEvalなどのベンチマークテストで検証され、従来のLLMよりも優れた結果を示しています。今後、この新しい手法がさらなる進化を遂げることが期待されます。