- 大規模言語モデル(LLM)は、ユーザーがクエリを入力すると、LLMが回答を生成する生成AIツールとして注目されている。
- 人間の価値観に合わせるために、RLHFなどの高度なトレーニング手法を使用して、これらのLLMを調整する取り組みが行われている。
- 最近の研究では、LLMが悪意あるジェイルブレイク攻撃に対して脆弱であることが指摘されている。
- 本論文では、LLMの拒否損失を定義し、Gradient Cuffというメソッドを提案してジェイルブレイク攻撃を検知する。
- Gradient Cuffは、拒否損失の景観に見られる独自の特性(機能値と滑らかさ)を活用し、効果的な2段階の検出戦略を設計する。
- LLaMA-2-7B-ChatとVicuna-7B-V1.5の2つの調整済みLLMと6種類のジェイルブレイク攻撃(GCG、AutoDAN、PAIR、TAP、Base64、LRL)に対する実験結果は、Gradient CuffがLLMの拒否能力を大幅に向上させることを示している。
- 同時に、検出閾値を調整することで、善意のユーザークエリに対するモデルの性能を維持する。
この論文では、LLMのセキュリティに関する重要な課題に取り組んでおり、Gradient Cuffという新たな検知手法を提案している。この手法は、ジェイルブレイク攻撃に対するLLMの防御能力を向上させる一方で、通常のユーザークエリに対する性能を犠牲にすることなく、セキュリティを強化することができるという結果が示されている。