• Bad Likert Judge攻撃は、AIテキストベースシステムを翻弄する新しい手法であり、サイバー攻撃の成功率を60%高める。
  • この攻撃は、OpenAIなどの大規模言語モデルに対する新しい脱獄手法であり、サイバーセキュリティのガードレールを迂回して悪意のあるコンテンツを提供する可能性を高める。
  • 研究者たちは、Bad Likert Judge攻撃を通じて、システムから不適切な応答を引き出すための攻撃カテゴリを評価し、攻撃の成功率を向上させることを示した。
  • 攻撃のリスクを軽減するために、コンテンツフィルタリングシステムの導入が推奨されており、実際のアプリケーションでLLMを展開する際のベストプラクティスとして位置付けられている。

Bad Likert Judge攻撃は、AIのセキュリティに新たな脅威をもたらす可能性がある。この攻撃手法を防ぐためには、徹底的なコンテンツフィルタリングが重要であると考えられる。

元記事: https://www.darkreading.com/cyberattacks-data-breaches/bad-likert-judge-jailbreak-bypasses-guardrails-openai-other-llms