LLM「被害者モデル」は新たな敵対的攻撃に混乱

8月 28, 2024

AIの攻撃に関する新たな研究が行われ、既存の戦略よりも20倍速くモデルを破壊可能に
悪意のあるデータを大規模言語モデルに過負荷することでモデルが崩壊したり、AIモデルを悪用して悪質な応答を生成させることが可能
新しい「高速かつ移植可能」な敵対的攻撃が設計され、既存の攻撃戦略よりも20倍速く「被害モデル」を攻撃可能に
敵対的攻撃は機械学習モデルを誤解させることを試み、注意深く作成された入力を提供して、モデルが間違いを犯したり誤った出力を生成するようにする
TF-Attackは「同義語置換」を用いて敵対的サンプルを生成し、被害モデルの性能を著しく低下させる
TF-Attackは外部のモデルを攻撃犬として使用し、被害モデルへの依存を減らし、敵対的AIがより広範囲の被害者を狙う能力を持たせる
TF-AttackはMulti-DisturbとDynamic-Disturbと呼ばれる2つのトリックを使用し、生成された敵対的サンプルの攻撃効果と移植性を向上させる

研究者たちは、この新しいTF-ATTACKは、大規模言語モデルに対する敵対的攻撃に対する強力な防御手段を作成することで、今後の研究に潜在的な利益をもたらすと結論付けました。