要約:
- Appleの研究チームがAIMV2というビジョンエンコーダーのファミリーを紹介
- AIMV2は画像パッチとテキストトークンの予測を統合したシーケンス内で行い、画像認識や多モーダル理解などのタスクで優れた性能を発揮
- AIMV2は従来の方法と異なり、画像パッチとテキストトークンの両方を予測することで、複雑な視覚的およびテキスト間の関係を理解する能力を向上させた
- AIMV2はVision Transformer(ViT)を中心に構築され、SwiGLUやRMSNormなどのアーキテクチャ上の改良が性能を向上させている
- AIMV2はImageNet-1kで89.5%の精度を達成し、他のモデルを上回る多モーダル画像理解の性能を示す
考察:
AIMV2は画像とテキスト予測を統合した単一の多モーダルオートレグレッシブフレームワークの下で優れた性能を発揮し、これはビジョンエンコーダーの開発における重要な進歩であると言えます。AIMV2のシンプルで効果的な事前トレーニングプロセスは、少ないサンプルでより効果的なトレーニングを可能にする密な監督アプローチを採用しています。