- 2024年7月29日、サンフランシスコ – Galileoが第2回目のインデックスを発表、22のトップ言語モデルをランキング
- AnthropicのClaude 3.5 Sonnetが全タスクで最高のモデルとして選出
- 今年のインデックスは、OpenAI、Anthropic、Google、Metaなどの有力なブランドが含まれる
- 11つのモデルが追加され、過去8ヶ月でオープンソースとクローズドソースのLLMが急速に成長
- Galileoの評価メトリックであるcontext adherenceを使用し、1,000から100,000トークンの入力でモデルをテスト
- 企業が価格とパフォーマンスのバランスを取るために情報の正確性をチェックする
Galileoの新しいHallucination Indexは、実世界の使用事例でモデルをテストし、AIチームとリーダーが適切なモデルを適切なタスクに適切な価格で採用するために必要なデータを提供することを目的としています。Generative AIのパワーを活用しながらコスト、正確性、信頼性のバランスを取ることは、開発者や企業が直面する重要な課題です。