- Google LLCがDataGemmaシリーズと呼ばれる言語モデルの開発を行い、数値的な事実に関する質問により正確に答えることができるようになった。
- DataGemmaは、Data CommonsというGoogleが維持する無料の知識リポジトリから情報を活用して統計的事実に関するユーザーの質問に対応している。
- DataGemmaシリーズは、Gemma 2 27Bをベースにしており、27億のパラメータを持つ業界標準のTransformerニューラルネットワークアーキテクチャを搭載している。
- DataGemmaプロジェクトの一環として、GoogleはデータGemmaの2つのバージョンを開発し、それぞれ異なるアプローチでユーザーの質問に回答する。
- MIT Technology Reviewによると、DataGemmaのRIGバージョンは、Data Commonsから数値的な事実を正確に取得できる割合が58%であり、他のモデルの5%〜17%の精度よりも高い。
GoogleのDataGemmaプロジェクトは、数値的な事実に特化したモデルであり、Data Commonsから情報を取得することでユーザーの質問に適切に回答することが特徴的です。RIGおよびRAGという異なるデータ処理手法を活用しており、RAGバージョンは80%〜94%の正確な回答を生成することができます。
元記事: https://siliconangle.com/2024/09/13/google-debuts-new-accuracy-optimized-datagemma-llm-series/