- Llama Guard 3 Visionは、画像理解を含むヒューマン-AI対話のための多様モーダルLLMベースの保護機能を紹介する。
- 前のテキスト専用のLlama Guardバージョンとは異なり、画像推論ユースケースをサポートするように設計されており、有害な多様モーダル(テキストと画像)のプロンプトおよびこれらのプロンプトに対するテキスト応答を検出するように最適化されている。
- Llama Guard 3 Visionは、Llama 3.2-Visionで微調整され、MLCommonsタクソノミーを使用した内部ベンチマークで強力なパフォーマンスを示している。
- また、Llama Guard 3 Visionの強度を敵対的攻撃に対してテストしている。
- Llama Guard 3 Visionは、多様モーダル機能を備えたヒューマン-AI対話のためのより能力の高い信頼性の高いコンテンツモデレーションツールを構築するための良い出発点と考えられる。
この論文では、画像理解を含む多様モーダルLLMベースのLlama Guard 3 Visionが紹介されています。これは、有害な多様モーダルプロンプトおよび応答を検出するように設計されており、内部ベンチマークで強力なパフォーマンスを示しています。敵対的攻撃に対する強度もテストされており、人間とAIの対話のための信頼性の高いコンテンツモデレーションツールの開発に向けた良い出発点となると考えられています。