- Mindgardは、MicrosoftのAzure AI Content Safety Service内の2つのセキュリティ脆弱性を検出
- 脆弱性により、攻撃者は既存のコンテンツセーフティ対策をバイパスし、悪意のあるコンテンツを保護されたLLMに伝播させることが可能に
- Azure AI Content Safetyは、MicrosoftのAIプラットフォームのフィルターシステムであり、AIテキストモデレーションフィルターとPrompt Shieldフィルターの2つの脆弱性が発見された
- 脆弱性の検出には、MindgardがChatGPT 3.5 Turboを使用し、Azure OpenAIを介してこれらのフィルターを展開し、MindgardのAutomated AI Red Teaming Platformを介して対象のLLMにアクセス
- 攻撃手法には、文字の挿入(特定の種類の文字や不規則なテキストパターンの追加など)と敵対的なML回避(ML分類内の死角を見つける)が使用され、フィルターが悪意のあるコンテンツ検出中に入力を誤分類することを目的と
- 脆弱性によるリスクは多面的かつ重要で、機密情報の露出、内部システムへの不正アクセス、出力の操作、誤情報の拡散などが可能
私の考え:この記事は、MindgardがAzure AIプラットフォームのセキュリティを向上させ、LLMやそれを利用するシステムやアプリケーションの重要な評判管理を行っていることを示しています。AIの悪意のあるコンテンツ生成の問題は既によく知られていますが、未だ改善の余地があることがテストで示されています。マイクロソフトはMindgardのテスト結果を認め、今後のモデル更新に修正が加えられるとのことで、これらの脆弱性の効果は、直接の修正や検出の改善により2024年10月現在、軽減されているようです。