要約
- Google DeepMindの研究者は、LLM(Large Language Models)の事実に基づいた生成能力を評価するFACTS Groundingベンチマークを導入しました。
- FACTSリーダーボードには、Gemini 2.0 Flashなどが83.6%の事実性スコアでトップに位置しています。
- FACTSデータセットには1,719の例が含まれ、長文の文脈に基づいた回答が必要です。
- モデルは文書を処理し、文書に完全に起因する包括的な回答を提供する必要があります。
- FACTSスコアは、3つの異なるLLMジャッジによって計算され、最終的な事実性判断はその平均に基づいています。
感想
LLMの事実性と根拠付けは、今後のAIシステムの成功と有用性にとって重要な要素であると考えられます。FACTS Groundingベンチマークとリーダーボードの導入は、AIシステムの向上に向けて重要な一歩となるでしょう。ただし、研究者たちはベンチマークが進歩に追いつかれる可能性があることを認識しており、この取り組みは始まりにすぎないとも述べています。