- MindgardがMicrosoftのAzure AI Content Safety Service内で2つのセキュリティ脆弱性を特定
- これらの脆弱性は、Mindgardが自動化されたAI Red Teaming Platformを使用して検出し、攻撃者が既存のセキュリティ対策をバイパスして悪意のあるコンテンツを大規模言語モデル(LLM)に伝播させることを可能にする
- Azure AI Content SafetyはMicrosoftのAIプラットフォーム上のフィルターシステムとして機能し、脆弱性はAIテキストモデレーションとプロンプトシールドのフィルターで見つかった
- Mindgardは、ChatGPT 3.5 Turbo経由でAzure OpenAIにアクセスし、これらのフィルターを展開して脆弱性を特定
- 脆弱性の特定には、文字の挿入やAdversarial Machine Learning(ML)回避などの攻撃手法が使用され、悪意のあるコンテンツの検出中に入力を誤分類する
- 脆弱性により、機密情報の露出、不正なアクセス、出力の操作、誤情報の拡散が可能になり、LLMベースのシステムの信頼性や評判が損なわれる可能性がある
- MicrosoftはMindgardのテスト結果を認識し、2024年10月現在、これらの脆弱性に対処するための修正に取り組んでおり、これらの脆弱性の効果を更新と検出の改善によって軽減している
私の考え: Mindgardの研究は重要であり、AIセキュリティの向上に貢献している。これらの脆弱性が修正されることで、AIシステムの安全性が向上し、悪意のあるコンテンツの拡散を防ぐことができる。Mindgardの継続的なテストと研究が今後もAIセキュリティの重要な側面であることを示している。
元記事: https://securitybrief.com.au/story/mindgard-reveals-vulnerabilities-in-azure-ai-content-safety