• OpenAIはGPT-4oをリリースし、音声インタラクションが追加されました。GoogleはGemini 1.5 FlashとProject Astraを含むいくつかの新しいAIモデルを発表しました。
  • GPT-4oは、テキスト、ビジョン、オーディオを網羅する初のOpenAIモデルで、GPT-4 Turboの性能に匹敵します。
  • この新モデルは、音声入力に対して約230ミリ秒で反応し、平均的な応答時間は320ミリ秒です。
  • Gemini 1.5 Flashは、Gemini 1.5 Proの軽量版で、業界最大の1百万トークンコンテキストウィンドウを持っています。
  • Project Astraは、より人間のように世界を認識し反応する「ユニバーサルAIエージェント」の開発を目指しています。
  • Googleはまた、Gemini 1.5 Proを強化し、2百万トークンのコンテキストウィンドウを持つようになり、さらにコード生成や論理的推論などが向上しました。

感想:

OpenAIとGoogleの両社からのこのような大きなアップデートは、AI技術の進歩と普及を加速させる重要なステップであると感じます。特に、GPT-4oの音声インタラクション機能の追加や、GoogleのGemini 1.5 Flashの発表は、AIがより多くの環境やアプリケーションで使われるようになることを示唆しています。これらの技術がどのように社会や産業に影響を与えるかを見るのが楽しみです。


元記事: https://www.datanami.com/2024/05/14/new-genai-models-on-tap-from-google-openai/