OpenAIの研究者は、最高のAIでさえ「コーディング問題の大半を解決できない」ことを発見した

2月 24, 2025

OpenAIの研究者は、最も先進的なAIモデルでも、人間のコーダーにはまだ敵わないことを認めた。
新しい論文では、OpenAIの研究者が、最も先進的かつ限界を押し広げるAIシステムであるフロンティアモデルも、「多くのコーディングタスクを解決することができない」と結論づけた。
OpenAIは、1,400以上のソフトウェアエンジニアリングタスクから構築された新しいベンチマークであるSWE-Lancerを使用し、3つの大規模言語モデル（LLMs）をテストした。
LLMsは、Upworkからの2種類のタスクを実行することができたが、実際のバグを見つけたり原因を見つけたりすることができなかった。
研究者によると、これらのフロンティアモデルは、人間よりも速く作業できるが、バグの広がりや文脈を理解することができず、信頼性が不足している。
フロンティアモデルは、細かいタスクを解決するのには適しているが、人間エンジニアほどスキルが優れていないことが示されている。

私の考え: AIの進化は素晴らしいものですが、この論文はAIがまだ人間エンジニアと同等のタスクを遂行するには至っていないことを示しています。AIは高速で作業できるが、本質的な理解やコンテキスト理解には至っておらず、実際のコーディングタスクには信頼性が不足しているようです。