要約:

  • OpenAIの研究者が、新しいベンチマークSWE-Lancerを導入し、AIモデルのソフトウェアエンジニアリング能力を評価。
  • SWE-Lancerには、1,488のフリーランスソフトウェアエンジニアリングジョブが含まれ、合計$1 millionの支払いがある。
  • モデルはIC SWE(機能の実装やバグの解決など)とSWE Manager(仕事投稿の提案のレビューや選択)の2つのカテゴリのタスクに分けられる。
  • Claude 3.5 Sonnetは、他の2つのモデルよりも優れた成績を収め、IC SWEで26.2%、SWE Managerで44.9%のスコアを記録。
  • LLMは、問題の特定が得意であるが、根本原因を見つけることが難しく、部分的または欠陥のある解決策を提供する可能性がある。
  • 全モデルのパフォーマンスが向上し、o1では6回以上の試行を許可するとタスクの解決率が3倍になる。

考察:

この研究では、SWE-Lancerを通じて実世界のソフトウェアエンジニアリング能力を評価する試みが行われました。Claude 3.5 Sonnetが他のモデルよりも良い結果を示しましたが、依然として改善の余地があります。LLMは問題の特定には優れていますが、根本原因を見つけることが難しく、解決策が部分的または不完全な場合があります。また、モデル全体のパフォーマンスは、より多くの回答を生成して最良のものを選択することで向上します。これは、LLMの弱点を補うことができる利点の1つです。

元記事: https://bdtechtalks.com/2025/02/24/claude-3-5-sonnet-outperforms-gpt-4o-and-o1-in-software-engineering-openai-study-shows/