• 大規模言語モデル(LLMs)の訓練コストと速度の遅さから、推論による性能向上のためにより多くの計算サイクルを使うことが議論されている。
  • DeepMindとカリフォルニア大学バークレー校の研究者が行った新しい研究では、推論時の計算リソースを戦略的に割り当てることでLLMsの性能を向上させる方法を探求。
  • 従来のアプローチは、モデルサイズと事前トレーニング計算を拡大することでLLMの性能を向上させることだったが、このアプローチには制限がある。
  • 推論時の計算を増やすことで、大きなLLMと比較可能な性能を達成しつつも、より小さなLLMを展開することが可能。
  • 最適な推論時戦略を決定するために、研究者は「テスト時計算最適スケーリング戦略」を定義し、最大のパフォーマンス利益を得るための戦略を選択。

研究者の研究結果は、推論時の計算を適切に割り当てることで、最良のNのベースラインを上回る性能向上が可能であり、その際の計算の約25%しか使用していなかった。

私の考え:LLMの性能向上において、推論時の計算を適切に活用することは重要であり、より小さなモデルに追加のテスト時計算を適用することで、大規模な事前トレーニングと比較可能な性能を達成できることが示唆されています。

元記事: https://venturebeat.com/ai/deepmind-and-uc-berkeley-shows-how-to-make-the-most-of-llm-inference-time-compute/