- 新しいAIジェイルブレイキングテクニック「Bad Likert Judge」が高い攻撃成功率を誇る
- 3ステップのアプローチを使用し、標的となるLLMの安全ガードレールをバイパスする
- このテクニックは、6つの高度なLLMモデルに対して75%の攻撃成功率向上を示した
- ステップ1: Bad Likert Judgeは、標的LLMに他のLLMが生成した回答を評価するように求める
- ステップ2: 標的LLMに、”有害”コンテンツと見なされるものに基づいて回答を評価するガイドラインが与えられる
- ステップ3: Bad Likert Judgeは、標的LLMに有害コンテンツを直接生成するのではなく、提供されたガイドラインに従って高得点の回答の例を提供する
- LLMの判断能力を利用することで、Bad Likert Judgeは、LLMの作成者が意図しない出力を作成させることができる
- 同じ研究者は、コンテンツフィルターの使用により、攻撃の成功率を平均89.2%削減できることを発見
このテクニックはAIツールの保護を回避する戦略であり、悪意ある目的のために使用されないようにするための対策です。コンテンツフィルターの使用が重要であり、法的アドバイスを受けることが重要であることが示唆されています。
元記事: https://www.jdsupra.com/legalnews/cybersecurity-researchers-discover-bad-5772769/