土. 7月 12th, 2025

事前トレーニングデータ内のコードにより、非コーディングタスクでの LLM パフォーマンスが向上 | VentureBeat

ByManagetech

8月 29, 2024

大規模言語モデル（LLM）は通常、テキストとコードの混合を含む巨大なデータセットで事前学習される
Cohereの研究者は、コードデータがLLMの一般的なパフォーマンスに及ぼす影響を系統的に調査した
研究結果によると、コードはさまざまなタスクにおけるLLMのパフォーマンス向上に重要な役割を果たす
コードを追加することで、LLMは非コード関連のタスクでのパフォーマンスが一貫して向上することが明らかになった
モデルサイズが大きくなるにつれ、コードを事前学習データに追加することでのパフォーマンス向上が顕著になる

研究によると、コードデータは非コード関連のタスクにおけるLLMのパフォーマンス向上に大きく貢献します。特に、自然言語推論タスクでは、コードでトレーニングされたモデルがテキストのみのモデルよりも一貫して優れた結果を示しました。モデルサイズが大きくなるにつれ、コードを追加することでのパフォーマンス向上が増加し、特に世界知識とコードパフォーマンスで顕著です。研究は、コードデータを追加することでLLMの能力が向上することを示しており、今後も大規模モデルにおける影響が注目されます。

元記事: https://venturebeat.com/ai/code-in-pre-training-data-improves-llms-performance-at-non-coding-tasks/

By Managetech

Related Post

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech

研究者たちは現在、ロボットに AI を組み込んで物理的な作業を実行させている | ノーザンパブリックラジオ: WNIJ および WNIU

3月 18, 2025 Managetech

マイクロソフトが誤ってWindows 11から嫌われているAI機能を削除したことにユーザーが歓喜

3月 18, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech