ビジョン AI の未来: Apple の AIMV2 が画像とテキストを活用して他社をリードする方法 | Synced

ByManagetech

12月 8, 2024

要約:

Appleの研究チームがAIMV2というビジョンエンコーダーのファミリーを紹介
AIMV2は画像パッチとテキストトークンの予測を統合したシーケンス内で行い、画像認識や多モーダル理解などのタスクで優れた性能を発揮
AIMV2は従来の方法と異なり、画像パッチとテキストトークンの両方を予測することで、複雑な視覚的およびテキスト間の関係を理解する能力を向上させた
AIMV2はVision Transformer（ViT）を中心に構築され、SwiGLUやRMSNormなどのアーキテクチャ上の改良が性能を向上させている
AIMV2はImageNet-1kで89.5%の精度を達成し、他のモデルを上回る多モーダル画像理解の性能を示す

考察:

AIMV2は画像とテキスト予測を統合した単一の多モーダルオートレグレッシブフレームワークの下で優れた性能を発揮し、これはビジョンエンコーダーの開発における重要な進歩であると言えます。AIMV2のシンプルで効果的な事前トレーニングプロセスは、少ないサンプルでより効果的なトレーニングを可能にする密な監督アプローチを採用しています。

元記事: https://syncedreview.com/2024/12/07/self-evolving-prompts-redefining-ai-alignment-with-deepmind-chicago-us-eva-framework-11/