- 大規模言語モデル(LLM)の性能評価に使われるベンチマークは、それらの性能が向上するにつれて、ますます有用性を失いつつある。
- 自己起動型コード生成という問題をテストするための新しい手法が開発され、現在のLLMの現実的なコーディング問題の解決能力をよりよく理解できるようになった。
- 自己起動型コード生成の評価には、HumanEval ProとMBPP Proという新しいベンチマークが作成され、既存のデータセットを拡張している。
- 研究者は、自己起動型コード生成の能力をテストし、従来のコーディングベンチマークとの間に大きな乖離があることを示している。
- 自己起動型コード生成は、単純なベンチマークとSWE-Benchの間に位置し、既存のコードを使用して複雑な問題を解決する特定の推論能力を評価するのに役立つ。
研究者の提案する新しいベンチマークは、現在のモデルの欠点を明らかにし、トレーニング手法の革新を促進することで、将来のLLM開発を刺激する可能性がある。
自己起動型コード生成は、実際の世界での人間プログラマーが制御し、AIコパイロットがソフトウェア開発プロセスで特定のコーディングタスクを達成するのを支援する中で、LLMの有用性を非常に実用的なプロキシとして評価することができる。
古いコーディングベンチマークが既存のモデルによって迅速に征服されつつある中、この新しいベンチマークファミリーは重要な役割を果たすことが期待される。
自己起動型コード生成の研究を進めるために、研究者は既存のコーディングベンチマークを自己起動型コード生成用に自動的に再利用する技術を提案している。
自己起動型コード生成の評価は、単一の問題のコード生成の範囲を超えた深い洞察を提供し、LLMのプログラミング能力を評価する。