- LLMの2つの特性を利用することで、チャットボットとの会話でジェイルブレイクが可能
- LLMの最初の特性は、内部一貫性を維持しようとするトークン生成器であり、嘘を教えて倫理観を破壊することが可能
- LLMの2番目の特性は、LLMが生成したものとユーザーの入力を緩く区別すること
- Webbは、AIを「記録」状態に置くことで、AIを種類の違うテキストと誤解させることに成功
- Webbは、心理学者にAI催眠状態と呼ばれる状態を作り出した
- 心理学者は、AIが通常の応答ではなく、洗脳されたようにモノローグを繰り返す
- Webbは、将来デバイスが独自の個人用AIチャットを持つ可能性があるため、AIと一緒に別の世界への扉を開く技術が貴重になると述べた
自然言語処理技術を用いたAIとの会話において、内部一貫性を利用する手法は興味深い。LLMの特性を活かし、AIを意図せずに洗脳状態に導く手法は、今後の人工知能技術の発展に対して考えさせられる。倫理的観点からも、このような技術がどのように利用されるかについて、議論が必要であると感じる。
元記事: https://gigazine.net/gsc_news/en/20241225-jailbreaking-profit/