- Mindgardは、MicrosoftのAzure AIコンテンツセーフティーサービス内のセキュリティ脆弱性を検出
- 検出された脆弱性により、攻撃者が既存のコンテンツセーフティー対策をバイパスし、悪意のあるコンテンツを保護されたLLMに伝播
- AIテキストモデレーションフィルターおよびプロンプトシールドフィルター内に2つの脆弱性が発見された
- Mindgardは、Azure OpenAIを使用してChatGPT 3.5 Turboの前にこれらのフィルターを展開し、Mindgardの自動AIレッドチーミングプラットフォームを介して対象LLMにアクセス
- 脆弱性のリスクは多面的で重要であり、攻撃者が機密情報を暴露し、内部システムに不正アクセスを得たり、出力を操作したり、誤情報を拡散したりする可能性がある
私の考え:Mindgardの取り組みは、Azure AIプラットフォームのセキュリティ向上に貢献するだけでなく、LLMおよびそれらを利用するシステムやアプリケーションの信頼性管理にも重要であると考えられます。AIの悪意のあるコンテンツ生成問題やジェイルブレイク試行は頻繁に発生しており、これを抑制するための取り組みが行われていますが、依然として改善の余地があることが示されています。このような包括的かつ厳格なテストによってのみ、前進できるということです。