• IEEE SpectrumがAIコード生成器と人間プログラマーの比較を行った研究を公開
  • IEEE Transactions on Software Engineeringの6月号に掲載された研究で、OpenAIのChatGPTによって生成されたコードの機能性、複雑さ、セキュリティが評価された
  • ChatGPTは機能的なコードを生成する際に非常に幅広い成功率を示し、難易度やプログラミング言語などによって成功率が異なる
  • 一部の場合、AI生成コードが人間よりも優れているが、セキュリティ上の懸念がある
  • 研究では、GPT-3.5をC、C++、Java、JavaScript、Pythonの5つのプログラミング言語で728のコーディング問題にテストし、LeetCodeの問題を解決するのにChatGPTがかなり優れていることが示された
  • ChatGPTの機能的なコード生成能力は2021年以降に影響を受け、問題の意味を理解できないことがある
  • ChatGPTの能力は2021年以降に”easy”問題の機能的なコード生成成功率が89%から52%、”hard”問題は40%から0.66%に低下した
  • ChatGPTはコンパイルエラーの修正には成功するが、自身の間違いを修正するのは一般的にうまくいかない
  • ChatGPT生成のコードには多くの脆弱性があるが、多くは容易に修正可能
  • 報告書によると、「興味深いことに、ChatGPTはLeetCodeの問題に対するランタイムおよびメモリの使用量が人間の解決策の少なくとも50%より小さいコードを生成できる」という

研究結果からは、ChatGPTが機能的なコードを生成する能力は優れている一方で、2021年以降に問題が発生していることが示されています。特に問題の意味を理解する能力に課題があり、セキュリティ上の懸念も浮上しています。ChatGPTは一部のコーディング問題には非常に効果的であることが示されていますが、自身の間違いを修正する能力やセキュリティの側面において改善の余地があることが示唆されています。

元記事: https://fudzilla.com/news/ai/59308-ai-produces-mixed-results-as-code-generators