- 最近、事前に学習された大規模言語モデル(LLMs)の人気が急上昇しており、自然言語処理(NLP)およびコンピュータビジョン(CV)コミュニティ全体に波及しています。
- LLMsは高度な多モーダル理解能力を示し、さまざまなベンチマークで強力なパフォーマンスを発揮しています。
- 本論文では、視覚皮質のfMRI活動を符号化するための新しい多モーダルトレーニングパラダイムを提案しています。
- LLMとの一致に基づいたこのパラダイムに基づき、fMRIデータでエンコーディングモデルをトレーニングし、LLM-Visual Encoding Model(LLM-VEM)を構築しました。
- 具体的には、LLM(miniGPT4)を使用してすべての刺激画像の記述テキストを生成し、高品質のテキスト記述セットを形成しました。
- さらに、事前に学習されたテキストエンコーダ(CLIP)を使用してこれらの詳細な記述を処理し、テキスト埋め込み機能を取得しました。
- 次に、コントラスト損失関数を使用して、画像埋め込み機能とテキスト埋め込み機能の距離を最小化し、刺激画像とテキスト情報の整合操作を完了しました。
- 事前に学習されたLLMの支援を受けて、この整合プロセスは視覚エンコーディングモデルの学習を改善し、より高い精度をもたらします。
- 最終的な実験結果は、当社のトレーニングパラダイムが視覚エンコーディングモデルのパフォーマンス向上に著しく役立っていることを示しています。
この記事では、LLMsの人気と視覚皮質のfMRI活動を符号化するための新しい多モーダルトレーニングパラダイムについて述べられています。LLMとの一致に基づくトレーニングパラダイムは、視覚エンコーディングモデルの学習を改善し、精度を向上させることが示されています。
元記事: https://medium.com/%40monocosmo77/working-with-fmri-and-machine-learning-part7-c099380c19c5