• 大規模な言語モデルは、原因を特定したり包括的な解決策を提供するのに苦労している。
  • OpenAIの研究によると、AIはソフトウェアエンジニアをまだ置き換えることができない可能性がある。
  • 研究者は、AIの有効性を評価するために「SWE-Lancer」というベンチマークを作成し、技術の不足を指摘。
  • AIは問題の位置を特定する能力に優れているが、根本原因を見つけるのが苦手。
  • OpenAIのモデルo1とGPT-4o、およびClaudeの3.5 Sonnetモデルを比較した結果、全てのモデルが特定のユーザーインターフェース(UI)の問題を完全に解決できなかった。

自然言語処理の進化は驚異的であり、AIによるコーディングツールはソフトウェアエンジニアリングを効率的にする可能性があります。しかし、AI生成のコードには潜在的な欠陥があることに注意する必要があります。AIコーディングツールの利用が増加している中、潜在的なリスクや欠点について企業が検討すべき警告サインが多く存在しています。AIツールに過度に依存することは、人間のプログラマーのスキルを損なう可能性があり、AIツールと人間の入力が組み合わさることで最良の結果が得られるとされています。

元記事: https://www.itpro.com/software/development/frontier-models-are-still-unable-to-solve-the-majority-of-tasks-ai-might-not-replace-software-engineers-just-yet-openai-researchers-found-leading-models-and-coding-tools-still-lag-behind-humans-on-basic-tasks