• MetaのFundamental AI Research(FAIR)チームは、最近Chameleonという混合モーダルAIモデルをリリースした
  • Chameleonは、画像とテキストの混合コンテンツを理解および生成できる
  • 人間の審査員による実験では、Chameleonの生成された出力が51.6%の試行でGPT-4より好まれ、60.4%の試行でGemini Proよりも好まれた
  • Chameleonは、テキストと画像の両方の単一のトークンベースの表現を使用し、混合シーケンスで両方の画像とテキストを終点までトレーニングされた
  • 研究者は、標準のTransformerアーキテクチャに変更を加え、モデルアーキテクチャに追加の正規化操作を適用することで、Chameleonのトレーニングを安定化させた

自然言語処理における混合モーダルAIの発展は非常に興味深い。Chameleonのようなモデルは、画像とテキストの統合的な理解と生成を可能にし、従来のアプローチとは異なる新たな可能性を提示しています。また、Chameleonのトレーニングにおける課題と解決策についての詳細な情報は、今後の混合モーダルAIの発展に向けて重要な示唆を与えています。

元記事: https://www.infoq.com/news/2024/06/meta-chameleon-ai/