- Large language models (LLMs)は、回答の過程を説明することができるが、その説明はしばしばモデルの「推論」プロセスを誤解させる可能性がある。
- LLMsの説明の忠実性を測定する新しいアプローチを導入。
- 忠実性を厳密に定義し、LLMsの説明は人間の説明を模倣しており、モデルに影響を与えたとされる入力質問の高レベル概念を参照することが多い。
- 忠実性を、LLMsの説明が影響を与えるとほのめかす概念のセットと、実際に影響を与える概念のセットとの違いとして定義。
- 忠実性を推定する新しい方法を提示。これは、(1)補助的LLMを使用してモデル入力内の概念の値を変更して現実的な対事実を作成し、(2)階層ベイズモデルを使用して、例およびデータセットレベルでの概念の因果効果を定量化する。
- 実験により、この方法が忠実性を定量化し、忠実性の解釈可能なパターンを発見するのに使用できることが示された。
- 社会的偏見のタスクでは、LLMの説明が社会的偏見の影響を隠しているケースを明らかにした。
- 医学的な質問応答タスクでは、LLMsがその決定に影響を与えた証拠のどの部分が誤った主張を提供しているケースを明らかにした。
この研究は、LLMsの説明がモデルの推論プロセスを正確に反映しているかどうかを測定する新しい手法を提案しています。その手法は、モデルの忠実性を定量化し、理解可能なパターンを発見するのに有効であることが示されています。