- 大規模言語モデル(LLM)は、質問に対して無限の情報を提供するが、その信頼性はどう確認できるかが問題
- 従来の機械学習では、ラベル付きデータセットを使用して予測の信頼性を評価してきたが、LLMでは多様なタスクに対応するために膨大なデータセットが必要
- MITとMIT-IBM Watson AI Labが共同で開発したThermometerは、LLMのキャリブレーションを効率的に行う手法
- Thermometerは、補助モデルを使用して標準的な温度スケーリングアプローチを採用し、主要なLLMの信頼度を評価
- 実験によると、Thermometerは効率的であり、モデルの実行速度に0.5%しか影響を与えず、他の手法よりも優れた不確実性の測定が可能
- Thermometerは一定量のラベル付きデータに依存し、新しいタスクへの一般化はできないが、今後はより適切なデータ量と多様性を検討して改善を目指す
Thermometerは、LLMの信頼性を高めるための効果的な手法であり、補助モデルを使用することで計算コストを削減しつつ、性能の低下を招かない点が特徴的です。今後の研究で、さらなる発展が期待されます。
元記事: https://www.hackster.io/news/a-hot-take-on-llm-trustworthiness-794f9d29ede9