• Mindgardは、MicrosoftのAzure AI Content Safety Service内の2つのセキュリティ脆弱性を検出
  • 脆弱性により、攻撃者は既存のコンテンツセーフティ対策をバイパスし、悪意のあるコンテンツを保護されたLLMに伝播させることが可能に
  • Azure AI Content Safetyは、MicrosoftのAIプラットフォームのフィルターシステムであり、AIテキストモデレーションフィルターとPrompt Shieldフィルターの2つの脆弱性が発見された
  • 脆弱性の検出には、MindgardがChatGPT 3.5 Turboを使用し、Azure OpenAIを介してこれらのフィルターを展開し、MindgardのAutomated AI Red Teaming Platformを介して対象のLLMにアクセス
  • 攻撃手法には、文字の挿入(特定の種類の文字や不規則なテキストパターンの追加など)と敵対的なML回避(ML分類内の死角を見つける)が使用され、フィルターが悪意のあるコンテンツ検出中に入力を誤分類することを目的と
  • 脆弱性によるリスクは多面的かつ重要で、機密情報の露出、内部システムへの不正アクセス、出力の操作、誤情報の拡散などが可能

私の考え:この記事は、MindgardがAzure AIプラットフォームのセキュリティを向上させ、LLMやそれを利用するシステムやアプリケーションの重要な評判管理を行っていることを示しています。AIの悪意のあるコンテンツ生成の問題は既によく知られていますが、未だ改善の余地があることがテストで示されています。マイクロソフトはMindgardのテスト結果を認め、今後のモデル更新に修正が加えられるとのことで、これらの脆弱性の効果は、直接の修正や検出の改善により2024年10月現在、軽減されているようです。

元記事: https://www.securityinfowatch.com/cybersecurity/press-release/55239010/security-vulnerabilities-detected-in-microsofts-azure-ai-system-filters