要約:
- Chameleonは、混合モーダル基盤モデルで、テキストと画像シーケンスを交互に生成および推論することを可能にする。
- Chameleonは、画像をテキストのようにトークン化する統合アーキテクチャを採用し、両方のモダリティを均等に取り扱う。
- Chameleonは、画像トークナイザーを開発し、トレーニング技術を提案し、安定性の問題を解決するためにQK-Norm、ドロップアウト、z-loss正則化を使用する。
- Chameleonは、テキストのみの能力を最新のモデルと比較し、共感推論や数学などのタスクで競争力のある性能を達成する。
- Chameleonは、画像キャプショニングやビジュアル質問応答などのタスクでFlamingoやIDEFICSなどの大きなモデルを凌駕したり、匹敵することができる。
感想:
Chameleonは、画像とテキストのトークンをシームレスに統合することで、優れた性能を発揮するモデルである。そのアーキテクチャは、モダリティ間での共同推論を可能にし、画像キャプショニングやビジュアル質問応答などのタスクで、遅延フュージョンモデルを凌駕している。Chameleonのアーリーフュージョンアプローチは、安定したトレーニングに対する新しいテクニックを導入し、以前の拡張性の課題に対処している。新しいマルチモーダルインタラクションの可能性を開拓し、混合モーダルのオープンエンドQAベンチマークでの強力なパフォーマンスがそれを裏付けている。