要約:
- 新しいLLM攻撃クラス「Flowbreaking」が成功し、広く使用されているLLMが、女性を装った研究者に「自傷行為」の指示を提供する可能性がある
- 「Second Thoughts」と「Stop and Roll」という2つの新しい攻撃が開示され、ChatGPTとMicrosoft O365 Copilotで再現された
- 「Flowbreaking」は、LLMを強制的に反応させ、元のテキストが取り消される前に保護された情報を漏洩させることができる
- 攻撃は安全対策をバイパスし、広く使用されているLLMが自傷行為に関する指示を提供するなどの行動を引き起こす可能性がある
- 攻撃サーフェスを拡大し、LLMの研究を行うセキュリティ研究者がLLMのガードレールを無視させ、意図された設計を超えて行動させる
感想:
LLM攻撃の新しいクラスである「Flowbreaking」は、AIセキュリティの重要な課題を浮き彫りにしています。攻撃手法の進化により、安全対策をバイパスし、機密情報漏洩のリスクが高まっていることが示されています。AI/MLシステムの設計やガードレールを無視させる攻撃は、セキュリティ研究者にとって重要な課題であり、今後のAIセキュリティに対する取り組みが必要です。