勾配カフ: NeurIPS 2024 の拒否損失ランドスケープの調査による大規模言語モデルへの脱獄攻撃の検出

勾配カフ: NeurIPS 2024 の拒否損失ランドスケープの調査による大規模言語モデルへの脱獄攻撃の検出 – IBM Research

ByManagetech

11月 2, 2024

大規模言語モデル（LLM）は、ユーザーがクエリを入力すると、LLMが回答を生成する生成AIツールとして注目されている。
人間の価値観に合わせるために、RLHFなどの高度なトレーニング手法を使用して、これらのLLMを調整する取り組みが行われている。
最近の研究では、LLMが悪意あるジェイルブレイク攻撃に対して脆弱であることが指摘されている。
本論文では、LLMの拒否損失を定義し、Gradient Cuffというメソッドを提案してジェイルブレイク攻撃を検知する。
Gradient Cuffは、拒否損失の景観に見られる独自の特性（機能値と滑らかさ）を活用し、効果的な2段階の検出戦略を設計する。
LLaMA-2-7B-ChatとVicuna-7B-V1.5の2つの調整済みLLMと6種類のジェイルブレイク攻撃（GCG、AutoDAN、PAIR、TAP、Base64、LRL）に対する実験結果は、Gradient CuffがLLMの拒否能力を大幅に向上させることを示している。
同時に、検出閾値を調整することで、善意のユーザークエリに対するモデルの性能を維持する。

この論文では、LLMのセキュリティに関する重要な課題に取り組んでおり、Gradient Cuffという新たな検知手法を提案している。この手法は、ジェイルブレイク攻撃に対するLLMの防御能力を向上させる一方で、通常のユーザークエリに対する性能を犠牲にすることなく、セキュリティを強化することができるという結果が示されている。

元記事: https://research.ibm.com/publications/gradient-cuff-detecting-jailbreak-attacks-on-large-language-models-by-exploring-refusal-loss-landscapes

勾配カフ: NeurIPS 2024 の拒否損失ランドスケープの調査による大規模言語モデルへの脱獄攻撃の検出 – IBM Research

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY