• FACTS Groundingは、LLMが提供されたソース素材に基づいて回答を生成し、幻覚を避ける能力を評価する包括的なベンチマークを紹介
  • FACTS Groundingデータセットには1,719の例が含まれ、長い回答を要求し、提供された文書に根拠を置いたものである
  • FACTS Groundingの例には、金融、技術、小売、医学、法律などの領域をカバーする様々な長さの文書が含まれる
  • FACTS Groundingは、モデルの回答を自動的に評価するためにGemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetの3つの最新LLMジャッジを使用
  • 各FACTS Groundingの例は、適格性と情報の根拠に基づいて別々に判断され、最終的なスコアはすべてのジャッジモデルの平均値で計算される

私の考え:

FACTS Groundingは、LLMのファクトチェック能力と情報の根拠づけに焦点を当てたベンチマークであり、AIの進化において重要な役割を果たすと思います。モデルの進歩を追跡し、業界全体での向上に貢献することが期待されます。また、異なるジャッジモデルを使用して偏見を軽減するアプローチはメリットがあると考えられます。

元記事: https://deepmind.google/discover/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/