要約:
- 最近、AIシステムがソフトウェア開発の支援に取り入れられている。
- OpenAI ResearchのMiserendino、Wangらが、AIモデルが人間が解決したソフトウェア開発タスクを完了できるかを検証するツールを開発。
- 開発チームは、1488の実際のソフトウェア開発タスクを収集し、SWE-Lancerというベンチマークを作成。
- AIモデルは、問題の説明文と修正前のコードのスナップショットを与えられ、一部のタスクで成功を収めるものの、全体の$1 millionの収益には届かない。
- AIシステムは、マネージャータスクにおいて個別のコーディングタスクよりも優れた成績を収め、解決策の評価において得意であることが示唆された。
感想:
AIシステムが一部のソフトウェア開発タスクに成功するものの、現状では全体の課題を解決するには至らず、人間のエンジニアにはまだ代替されることがないようだ。AIの助けを借りて、人間開発者が高度な問題解決に専念できる可能性が示唆されており、自動化が進む一方で、AIと人間の協力が重要であることが浮かび上がっている。