OpenAI の新しいベンチマークは、実際のソフトウェアエンジニアリングタスクに対して AI モデルをテストします。

ByManagetech

2月 19, 2025

OpenAIの最新ベンチマーク、SWE-Lancerは、AIモデルが人間のフリーランスソフトウェアエンジニアと競合できるかという問いを提起
1,400以上の実世界のUpworkタスクから抽出したベンチマークは、AIの実用的なコーディング能力を測定しようとする
AIは進歩を遂げているものの、利用可能な支払いのわずかな部分しか獲得できず、依然として不十分との結論
SWE-Lancerは、AIモデルを1,400以上の実際のフリーランスコーディングタスクのデータセットで評価し、合計100万ドルの支払い額に相当
従来のコーディングベンチマークとは異なり、SWE-Lancerは実世界のソフトウェアエンジニアリングの複雑さを反映

私の考え：この記事は、AIがソフトウェアエンジニアリングの分野でどれだけ進化しているか、そして人間のエンジニアにまだ及ばないという点を示しています。AIの制限を明確にし、自動化されたソフトウェアエンジニアリングの将来の進歩のための道筋を提供するこのベンチマークは、価値のある現実のチェックを提供しています。

元記事: https://www.maginative.com/article/openais-new-benchmark-tests-ai-models-against-real-world-software-engineering-tasks/