Summary in Japanese

要約:

  • アメリカの3つの大学が行った研究によると、プログラミングアシスタントとして機能するAIモデルは幻覚を多く抱えている。
  • 商用モデルでは、コードパッケージの内容を5.2%のケースで部分的に作り上げており、オープンソースモデルでは21.7%に上る。
  • 16種類の広く使用されているLLMsを調査した結果、JavaScriptとPythonで576,000個のコードを生成。
  • 30のテストを実行し、2.23百万個のパッケージのうち約20%にあたる440,445個のパッケージに幻覚が含まれていた。
  • 研究によると、以前の調査よりも幻覚が少ないことが明らかになっている。
  • 研究者は幻覚を軽減するためにRetrieval Augmented Generation(RAG)を適用し、有効なパッケージ名のリストを生成したが、全体的なコード品質は低下した。
  • 幻覚は、LLMsが出力する事実に反する、無意味な、または入力タスクと全く関係のない出力であり、正確でないまたは誤解を招く情報を提供するため、LLMsの効果的かつ安全な展開において「重要な障害」である。
  • 他の研究によると、AIモデルによるコードの幻覚は常に信頼性の高い結果を生み出すわけではない。

考察:

AIモデルがコード生成中に幻覚を起こすことが問題となっており、その割合を低減するための研究や手法が検討されている。生成されるコードの品質と信頼性を向上させるために、さらなる研究と改善が必要であると考えられる。


元記事: https://www.techzine.eu/news/devops/124860/ai-models-are-still-unreliable-code-assistants/