拡張ベースのジェイルブレイクによりAIモデルの重大な欠陥が明らかに

12月 31, 2024

要約:

BoN（Best-of-N）ジェイルブレーキングは、Speechmatics、MATS、およびAnthropicによって開発された新しいテクニックであり、大規模言語モデル（LLMs）の安全性の欠陥を修正するのが難しいことを示している。
BoNは高い攻撃成功率（ASR）を達成する単純なブラックボックスアルゴリズムであり、プライベートLLMsに対して効果的であり、視覚言語モデル（VLMs）やオーディオ言語モデル（ALMs）にも有効である。
BoNはモデルの重みにアクセスを必要としないブラックボックス技術であり、GPT-4、Claude、Geminiなどのプライベートモデルに対して適用可能である。
BoNジェイルブレーキングはフロンティアLLMsに対する効果的な攻撃であり、他のジェイルブレーキング技術と組み合わせると攻撃成功率が向上する。
BoNはテキスト以外のモダリティにも適用可能であり、画像やオーディオに対する攻撃も行われている。

BoNジェイルブレーキングは、ブラックボックス技術を使用して効果的な攻撃を行うことができる点で興味深い。モデルのセキュリティを強化する際に考慮すべき新しい脅威として注目されるべきだと感じる。