• 大規模な言語モデル(LLM)の広範な採用を妨げるのは、幻覚(予期せぬ、架空、不正確な応答)の存在。
  • LLMは誤った出力を生成する理由は、敗北を認めずに「分からない」と言わないのか。
  • OpenAIは、RLHFプロシージャを適用し、人間のフィードバックから学習する方法を導入。
  • 報酬モデルを訓練する際に、人間のフィードバックが使用され、真実性の成分がノイズを生む可能性。
  • オラクルとして常に正しい答えを持つモデルを使用し、信頼度を推定して不正確な回答を厳しくペナルティ。

この記事は、大規模な言語モデルの幻覚に焦点を当て、OpenAIが人間のフィードバックを基に学習する方法を導入している点が興味深い。報酬モデルの訓練において真実性の成分がノイズを生む問題や、オラクルを使用して正確な回答を強化するアプローチが示唆されている。LLMが隠された知識にアクセスする可能性があるという新たな可能性も示唆されており、LLMの解釈可能性を向上させることが重要である。

元記事: https://hackernoon.com/can-ai-call-its-own-bluffs