Googleの最初の推論に焦点を当てたAIモデル、Gemini 2.0 Flash Thinkingが公開され、人工知能の能力における重要な飛躍を示しています。この実験モデルは、OpenAIのo1シリーズに直接競合する位置付けで、複雑な問題を解決する際の推論プロセスを明示的に示す独自の「Thinking Mode」を取り入れています。
Googleによると、この機能は、基本のGemini 2.0 Flashモデルと比較して優れた分析能力を提供し、透明で効果的なAI推論の新基準を設定しています。
新しいThinking Modeは、Google AI StudioとVertex AIを通じて実験的な機能として利用可能であり、開発者はGemini APIを介してアクセスできます。
Google DeepMindのChief ScientistであるJeff Deanは、革新的なモデルに関する洞察をX(以前はTwitter)での投稿を通じて共有しました。Gemini 2.0 Flashを基盤としたこのThinking Modeは、推論力を向上させるために思考過程を明示的に示すように設計されています。
Deanが共有したデモ動画では、モデルが複雑な物理問題をより小さな管理可能なコンポーネントに分解して解決する能力が示されています。この視覚的な段階的推論により、ユーザーはモデルが結論に至る過程を透明に理解できます。
Google AI StudioのProduct LeadであるLogan Kilpatrickは、テキストと画像の入力を含む数学問題を解決する能力を示す別のデモ動画を紹介しました。
今月初め、Googleは画像とオーディオの出力を含む先進的なマルチモーダル機能を導入したGemini 2.0シリーズを発表しました。このシリーズは、AI機能を再定義するために設計された新しいツールやプロトタイプも提供しています。
- Project Astra: Google I/O 2024でプレビューされた万能AIアシスタントで、スマートフォンのカメラとマイクから視覚的および聴覚的入力を「記憶」することができます。
- Project Mariner: ブラウザ情報全般、テキスト、コード、画像を理由付けするプロトタイプで、タスク完了のための実験的なChrome拡張機能を使用します。
- Jules: プログラミングの課題に取り組み、計画を立て、開発者の監視下で実行することに長けたコーディングエージェント。
- ゲームエージェント: プレイヤーが仮想環境をナビゲートする際にゲームプレイについて推論し、リアルタイムの提案を行うエージェント。
Gemini 2.0 Flash Thinkingモデルは、ユーザーとのAIのやり取り方法を変革し、問題解決プロセスの詳細な説明だけでなく解決策を提供することで、透明性を提供しています。この透明性は、教育、科学、ソフトウェア開発などの分野での普及の道を開く可能性があります。
Googleはマルチモーダル推論とエージェント体験の革新を推進し、急速に変化するAIの景観で先を行くことにコミットしていることを示すGemini 2.0シリーズは、その証です。