木. 3月 12th, 2026

自己呼び出しコードベンチマークは、プログラミングタスクにどの LLM を使用するかを決定するのに役立ちます | VentureBeat

ByManagetech

1月 10, 2025

大規模言語モデル（LLM）の性能評価に使われるベンチマークは、それらの性能が向上するにつれて、ますます有用性を失いつつある。
自己起動型コード生成という問題をテストするための新しい手法が開発され、現在のLLMの現実的なコーディング問題の解決能力をよりよく理解できるようになった。
自己起動型コード生成の評価には、HumanEval ProとMBPP Proという新しいベンチマークが作成され、既存のデータセットを拡張している。
研究者は、自己起動型コード生成の能力をテストし、従来のコーディングベンチマークとの間に大きな乖離があることを示している。
自己起動型コード生成は、単純なベンチマークとSWE-Benchの間に位置し、既存のコードを使用して複雑な問題を解決する特定の推論能力を評価するのに役立つ。

研究者の提案する新しいベンチマークは、現在のモデルの欠点を明らかにし、トレーニング手法の革新を促進することで、将来のLLM開発を刺激する可能性がある。

自己起動型コード生成は、実際の世界での人間プログラマーが制御し、AIコパイロットがソフトウェア開発プロセスで特定のコーディングタスクを達成するのを支援する中で、LLMの有用性を非常に実用的なプロキシとして評価することができる。

古いコーディングベンチマークが既存のモデルによって迅速に征服されつつある中、この新しいベンチマークファミリーは重要な役割を果たすことが期待される。

自己起動型コード生成の研究を進めるために、研究者は既存のコーディングベンチマークを自己起動型コード生成用に自動的に再利用する技術を提案している。

自己起動型コード生成の評価は、単一の問題のコード生成の範囲を超えた深い洞察を提供し、LLMのプログラミング能力を評価する。

元記事: https://venturebeat.com/ai/self-invoking-code-benchmarks-help-you-decide-which-llms-to-use-for-your-programming-tasks/

By Managetech

Related Post

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech

研究者たちは現在、ロボットに AI を組み込んで物理的な作業を実行させている | ノーザンパブリックラジオ: WNIJ および WNIU

3月 18, 2025 Managetech

マイクロソフトが誤ってWindows 11から嫌われているAI機能を削除したことにユーザーが歓喜

3月 18, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech