要約:
- DataGemmaは、幻覚の課題に対処するために設計された世界初のオープンモデルであり、GoogleのData Commonsの広大な実世界統計データに基づいてLLMを支えるものである。
- LLM(Large Language Models)は、AI革新を支えるものであり、広範なテキストを処理し、要約を生成し、新たな創造的な方向性を提案し、コードを起草する能力を持つ。しかし、LLMは時々正確でない情報を自信を持って提示することがある。これを「幻覚」と呼び、ジェネラティブAIの主要な課題としている。
- DataGemmaは、Data Commonsからの豊富な実世界データを活用して、LLMを現実世界の統計情報に基づいて根付かせ、幻覚を減少させるための有望な研究進展を共有している。
- Data Commonsは、信頼できる組織から収集された2400億以上のデータポイントを含む公開の知識グラフであり、健康、経済、人口統計、環境などの幅広いトピックに関する信頼性の高い情報が含まれている。
- DataGemmaは、RIG(Retrieval-Interleaved Generation)およびRAG(Retrieval-Augmented Generation)の2つのアプローチを使用して、Gemmaモデルの機能を拡張し、LLMの事実性と推論力を向上させている。
- RIGは、信頼できるソースから情報を取得し、Data Commonsの情報と照らし合わせることで、言語モデルの能力を向上させる。一方、RAGは、トレーニングデータを超えた関連情報を取り込み、コンテキストを増やし、より包括的で情報量の多い出力を実現している。
- 初期の調査結果では、RIGとRAGを使用することで、数値的な事実を扱う際の言語モデルの正確性が向上し、ユーザーは研究、意思決定、好奇心を満たすさまざまな用途で幻覚を経験しなくなる可能性がある。
感想:
この記事では、幻覚というジェネラティブAIの重要な課題に対処するための新しいアプローチであるDataGemmaについて興味深い研究の進展が紹介されています。Data Commonsを活用してLLMを実世界の統計情報に根付かせることで、幻覚を減少させる取り組みが行われており、RIGやRAGといったアプローチを通じて、言語モデルの性能向上が図られています。これにより、AIの信頼性と有用性を高めることが期待されます。
元記事: https://blog.google/technology/ai/google-datagemma-ai-llm/