• OpenAIの研究が人工エンジニアの限界を明らかに
  • AIは人間のソフトウェアエンジニアを置き換えるには程遠い
  • 最も優れたAIモデルでも実世界のプログラミングタスクに苦戦
  • OpenAIの最新実験では、AIモデルがリアルなエンジニアリング課題をテスト
  • 最も能力のあるモデル、Claude 3.5 Sonnetは、ハンズオンのコーディングタスクのわずか26.2%と技術的な管理の決定の44.9%しか完了できなかった
  • 研究では、AIが本物のエンジニアリング作業を遂行するために検証されたベンチマークSWE-Lancerを使用
  • SWE-Lancerは、Expensifyのコードベースに行われた1,488の実際の修正から構築され、フリーランスのエンジニアリング作業で100万ドルを代表
  • AIモデルは関連するコードスニペットを見つけるのに優れていたが、プログラムの異なる部分がどのように連携するかを理解することが求められるとつまずいた
  • 以前のAIコーディングテストが単純なアルゴリズムのパズルに依存していたのとは異なり、OpenAIのベンチマークは実世界のソフトウェア開発を再現
  • タスクは、$50のバグ修正から$32,000の機能実装まで幅広く、すべての解決策が実際のユーザー環境で厳密にテストされた

考え: この研究は、AIが実際のエンジニアリングタスクにおいて人間の専門知識に追いつくことがまだ難しいことを示しています。AIはコードスニペットの検索には優れていますが、プログラム内の相互作用を理解する際には限界があります。OpenAIの実験は、より現実的なソフトウェア開発を再現しており、AIの能力と課題をより実践的に評価しています。

元記事: https://www.fudzilla.com/news/ai/60571-ai-can-t-code