GoogleがAIによる誤情報生成を防ぐAIモデル「DataGemma」をリリース、「信頼できるデータコレクション」を参照することで幻覚を軽減 – GIGAZINE

ByManagetech

9月 17, 2024

大規模言語モデル（LLM）の開発は進んでおり、チャットAIやコード生成で使用されているが、「幻覚」という問題がある。
Googleは、この幻覚を軽減できるAIモデル「DataGemma」をリリースした。
DataGemmaはLLMをGoogleのData Commonsに接続するAIオープンモデルである。
RIGは任意の質問に適用できるが、「Data Commonsデータが後続の質問に反映されない」という問題がある。
RAGでは、DataGemmaは質問に対して「Data Commonsの質問」を生成し、Data Commonsから得られたデータを補助LLMに入力して最終回答を出力する。
Googleの実験では、補助LLMに入力されるデータのサイズが平均で38,000トークン、最大で348,000トークンであった。

私の意見：GoogleのDataGemmaは、幻覚を軽減するための重要な取り組みであり、RAGという手法を用いてData Commonsからのデータを活用して正確な回答を生成する点は興味深い。データの入力サイズが大きいため、補助LLMには大きなコンテキストウィンドウを持つLLMが必要であるという点は技術的な課題として重要である。

元記事: https://gigazine.net/gsc_news/en/20240917-google-ai-hallucination-datagemma/