• 大規模言語モデル(LLM)は通常、テキストとコードの混合を含む巨大なデータセットで事前学習される
  • Cohereの研究者は、コードデータがLLMの一般的なパフォーマンスに及ぼす影響を系統的に調査した
  • 研究結果によると、コードはさまざまなタスクにおけるLLMのパフォーマンス向上に重要な役割を果たす
  • コードを追加することで、LLMは非コード関連のタスクでのパフォーマンスが一貫して向上することが明らかになった
  • モデルサイズが大きくなるにつれ、コードを事前学習データに追加することでのパフォーマンス向上が顕著になる

研究によると、コードデータは非コード関連のタスクにおけるLLMのパフォーマンス向上に大きく貢献します。特に、自然言語推論タスクでは、コードでトレーニングされたモデルがテキストのみのモデルよりも一貫して優れた結果を示しました。モデルサイズが大きくなるにつれ、コードを追加することでのパフォーマンス向上が増加し、特に世界知識とコードパフォーマンスで顕著です。研究は、コードデータを追加することでLLMの能力が向上することを示しており、今後も大規模モデルにおける影響が注目されます。

元記事: https://venturebeat.com/ai/code-in-pre-training-data-improves-llms-performance-at-non-coding-tasks/