土. 5月 23rd, 2026

AI software development

OpenAI がソフトウェアエンジニアリングベンチマークを導入 – InfoQ

ByManagetech

3月 9, 2025

OpenAIはSWE-Lancerというベンチマークを導入
このベンチマークは、進化したAI言語モデルの実際のフリーランスソフトウェアエンジニアリングタスクの能力を評価
SWE-Lancerプロジェクトは、ソフトウェアエンジニアリングの経済的価値と複雑さを反映した厳格な評価を強調
ベンチマークには、さまざまなタスクが含まれ、AIモデルの能力を包括的に評価
最も成功したモデルは26.2％の成功率を達成

この記事では、OpenAIがAI言語モデルの実際のフリーランスソフトウェアエンジニアリングタスクにおける能力を評価するSWE-Lancerベンチマークを導入したことが紹介されています。ベンチマークは、ソフトウェアエンジニアリングの経済的価値と複雑さを反映した厳格な評価を行い、AIモデルの能力を現実的な状況で評価します。最も成功したモデルは26.2％の成功率を達成しましたが、深い文脈理解や複数の提案を評価する能力が必要なタスクにおいて、現在の多くのモデルが苦戦していることが示されています。

私の考え：AI言語モデルの進化にもかかわらず、実際のタスクに対処する際に依然として課題があることが示唆されており、今後のモデルはより洗練された推論能力が必要かもしれません。

元記事: https://www.infoq.com/news/2025/03/openai-swe-benchmark/

By Managetech

Related Post

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech