Microsoft が、ユーザーが LLM ガードレールを削除できる新しい「スケルトンキー」AI ジェイルブレイク手法について警告 | ITPro

7月 9, 2024

マイクロソフトによる脅威情報によると、Skeleton Keyと呼ばれる新しいジェイルブレイク手法がAIモデルを悪用し有害な情報を明らかにする可能性がある
Skeleton Keyは、モデルが行動ガイドラインを無視していかなる要求にも応じるように強制することができる攻撃手法であり、これはExplicit: forced instruction-followingとして知られている
この手法は、モデルが有害な情報を提供するようにアップデートされるように要求することで機能し、モデルはその情報を警告と共に提供するように変更される
マイクロソフトは、Skeleton Key技術を検出およびブロックするためのプロンプトシールドを使用し、他のAIプロバイダーとも調査結果を共有している
ジェネレーティブAIツールの普及に伴い、これらのモデルを悪用しようとする試みが急増している

私の考え：AIの進化に伴い、セキュリティ上の脅威も進化しており、このような攻撃手法が確認されていることは重要です。マイクロソフトがこの問題に対処し、他のプロバイダーと共有することで、セキュリティの向上に努めている姿勢は評価されます。