• OpenAIは新しいフラッグシップモデルであるGPT-4oを発表しました。このモデルはテキスト、オーディオ、ビジュアルの入力と出力をシームレスに統合し、機械とのやりとりの自然さを高めることを約束しています。
  • GPT-4oは、「omni」を意味する「o」が付いており、さまざまな入力と出力モダリティに対応するよう設計されています。テキスト、オーディオ、画像の任意の組み合わせを入力として受け付け、テキスト、オーディオ、画像の任意の組み合わせを出力として生成します。
  • ユーザーは、人間の会話速度に匹敵する232ミリ秒という迅速な応答時間を期待でき、平均応答時間は320ミリ秒です。
  • GPT-4oの導入により、すべての入力と出力を単一のニューラルネットワークを通じて処理することで、以前のバージョンで使用されていた別々のモデルパイプラインで失われていた重要な情報とコンテキストを保持できるようになりました。
  • GPT-4oは、ビジョンとオーディオの理解において顕著な改善を実現しており、曲のハーモナイズ、リアルタイム翻訳、笑いや歌声などの表現要素を含む出力の生成など、より複雑なタスクを実行できます。
  • 安全性に関しては、訓練データのフィルタリング技術を導入し、訓練後の安全対策を通じて行動を洗練させることで、GPT-4oに堅牢な安全対策が組み込まれています。
  • 本日から、GPT-4oのテキストと画像の機能がChatGPTに含まれ、無料プランとプラスユーザー向けの拡張機能が利用可能になります。
  • 開発者は、APIを通じてGPT-4oにアクセスでき、GPT-4 Turboと比較して倍の速度、半額の価格、そして強化されたレート制限の利点を享受できます。

感想:

  • GPT-4oは、テキスト、オーディオ、ビジュアルの統合が進んだモデルとして、AIと人間とのインタラクションに新たな次元をもたらす可能性があります。
  • 特に、多言語や多様な入出力モードをサポートすることにより、より広範な応用が期待されます。
  • 安全対策の強化も、AIのリスクを適切に管理し、信頼性を高める上で重要なステップです。


元記事: https://www.artificialintelligence-news.com/2024/05/14/gpt-4o-human-like-ai-interaction-text-audio-vision-integration/