- OpenAIの研究者たちは、SWE-LancerというLLMベンチマークを開発し、フリーランスのソフトウェアエンジニアリングタスクをテスト
- LLMはバグを解決できるが、なぜバグが発生しているかを理解できず、さらに間違いを犯す
- 研究者は3つのLLM(OpenAIのGPT-4oとo1、AnthropicのClaude-3.5 Sonnet)に1,488のフリーランスソフトウェアエンジニアタスクを割り当て
- タスクは個々の寄与者タスク(バグの解決や機能の実装)と管理タスクに分けられた
- LLMは人間のエンジニアを完全に置き換えることはできないことが示された
- LLMはバグの解決に役立つが、フリーランスで稼ぐほどのレベルではない
- AIモデルは一部の「低レベル」コーディング問題を解決できるが、まだ「低レベル」ソフトウェアエンジニアを置き換えるには至らない
研究では、LLMがソフトウェアエンジニアリングのタスクにおいて人間のエンジニアを完全に置き換えることが難しいことが示されました。特にバグの原因を見つけることや問題の根本的な理解にはまだAIモデルが不十分であることが明らかになりました。今後もAI技術の進歩に注目が必要であり、人間とAIの連携が重要であると考えられます。