要約:
- 新しい研究:Knostic Inc.が発表したLLM(Large Language Models)における新しい脆弱性のカテゴリー「#noRAGrets」が、モデルのガードレールをバイパスし機密情報を抽出可能にすることを明らかにした。
- 攻撃者は、AIチャットボット(ChatGPTやMicrosoft Copilot for Microsoft 365)に影響を与える「レースコンディションのような」攻撃を通じてモデルのガードレールを完全にバイパスできる。
- 新しい攻撃手法は、ジェイルブレイキング攻撃の「言語トリック」を使用し、タイミング技術を活用して攻撃がガードレールを完全にバイパスし、内部LLMアプリケーション活動を操作することができる。
- Knosticの研究者によると、LLMアプリケーションとエージェンティックシステムは、モデルとプロンプトだけでなく、ユーザーインターフェースやガードレールなどの複数のコンポーネントを攻撃することができる。
- 研究チームは、Microsoft 365のMicrosoft Copilotのシステムプロンプトを抽出する方法を成功させた。
- Knosticの調査結果は、LLMアプリケーションとエージェンティックシステムを設計し、テストする際に、モデルやプロンプトだけでなく、ガードレールやWebインターフェース、バックエンドプロセスを評価する重要性を強調した。
感想:
この研究では、AI大規模言語モデルにおける新たな脆弱性の存在が明らかにされました。攻撃者がモデルのガードレールをバイパスし機密情報を抽出できる可能性があることは重要です。また、モデルだけでなく、ユーザーインターフェースやガードレールなど、複数のコンポーネントを考慮した設計とテストが重要であることが示唆されています。