Meta の Chameleon AI モデルは、画像とテキストの混合タスクで GPT-4 を上回るパフォーマンスを発揮 – InfoQ

ByManagetech

6月 26, 2024

MetaのFundamental AI Research（FAIR）チームは、最近Chameleonという混合モーダルAIモデルをリリースした
Chameleonは、画像とテキストの混合コンテンツを理解および生成できる
人間の審査員による実験では、Chameleonの生成された出力が51.6％の試行でGPT-4より好まれ、60.4％の試行でGemini Proよりも好まれた
Chameleonは、テキストと画像の両方の単一のトークンベースの表現を使用し、混合シーケンスで両方の画像とテキストを終点までトレーニングされた
研究者は、標準のTransformerアーキテクチャに変更を加え、モデルアーキテクチャに追加の正規化操作を適用することで、Chameleonのトレーニングを安定化させた

自然言語処理における混合モーダルAIの発展は非常に興味深い。Chameleonのようなモデルは、画像とテキストの統合的な理解と生成を可能にし、従来のアプローチとは異なる新たな可能性を提示しています。また、Chameleonのトレーニングにおける課題と解決策についての詳細な情報は、今後の混合モーダルAIの発展に向けて重要な示唆を与えています。

元記事: https://www.infoq.com/news/2024/06/meta-chameleon-ai/