- 大規模言語モデル(LLMs)の誤出力問題は「幻覚」と呼ばれ、これまでユーザー視点からの誤差分析が行われてきたが、Technion、Google Research、Appleの研究者による新しい研究では、LLMsが従来考えられていたよりも真実性についてより深い理解を持っていることが明らかにされた。
- 幻覚という用語には一般的に受け入れられた定義がなく、幻覚は広範囲のLLMsのエラーを含む。研究者たちは幻覚をLMMによって生成されるすべてのエラーを含むと広義に解釈した。
- 従来の研究は主にLLMsの外部振る舞いの分析に焦点を当ててきたが、新しい研究では、誤りがどのようにエンコードおよび処理されているかについての洞察を提供している。
- 研究者たちは、正確な回答トークンを分析することで真実性情報が集中していることを示し、この手法はエラー検出を大幅に改善することが分かった。
- 研究者たちは、内部活性化に基づいて生成された出力の真実性に関連する特徴を予測するための分類器モデルを訓練し、「探査分類器」と呼んだ。この分類器を用いることで、エラーの予測が可能となった。
自然言語処理技術の発展に関するこの研究は、LLMsの内部表現の解析を通じてエラー検出と軽減技術の開発に貢献しています。LLMsの内部情報をより良く理解し活用することで、潜在能力を引き出しエラーを大幅に減らす可能性が示唆されています。
元記事: https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/