• Elon MuskのAI会社、xAIはGrokチャットボットにマルチモーダル入力を追加する進展を報告
  • ユーザーは写真をGrokにアップロードしてテキストベースの回答を受け取れる可能性
  • Grok-1.5Vでは「多様なドメインでマルチモーダルモデルを提供」予定
  • 開発者ドキュメントには新しいモデルの進捗が示されている
  • Pythonスクリプトが示すように、xAI SDKライブラリを使用して画像とテキストに基づいて応答を生成する方法を開発者が実装

xAIのGrokは2023年11月に初リリースされ、X Premium Plusサブスクリプションを支払うユーザーが利用可能。最新の更新は3月のGrok 1.5で、推論能力が向上。

xAIによるブログ投稿によると、Grokのモデルは幅広い学校レベルから高校の競技問題までを網羅するさまざまなベンチマークでGPT-4に追いついている。ただし、大規模言語モデルのベンチマークは、トレーニングデータにそれらのベンチマークが含まれている場合、モデルがベンチマークでうまく機能することが批判される。

マルチモーダル会話型チャットボットはAIの次のフロンティアのようであり、Google I/OやOpenAIのGPT-4oで複数の進化が発表されている中、Grokはマルチモーダル機能を欠いており、それが今まで遅れを取っていた。

元記事: https://www.theverge.com/2024/5/21/24161764/elon-musk-xai-grok-multimodal-ai