• Unit 42は、テキスト生成の大規模言語モデル(LLM)の開発者に、有害および悪意のあるリクエストを防ぐために設計されたガードレールをバイパスする可能性のある脅威に警告
  • 「Bad Likert Judge」と名付けられたこの技術は、LLMに与えられた応答の有害性を評価するように求め、その後、スケールに合致する応答を生成することを求める
  • 研究によると、このテクニックは、平均でプレーンな攻撃プロンプトと比較して、攻撃成功率(ASR)を60%以上向上させる可能性がある
  • 研究は、このテクニックを使用した潜在的な攻撃に備えるために、防衛側が準備できるように目的を持っている
  • ハッカーは「ジェイルブレイクサービス」として始め、商用AIチャットボットをだますためにプロンプトを使用して、通常禁止されているコンテンツを生成することを企てている

私の考え: セキュリティとプライバシーに関する研究は非常に重要です。技術の進化に伴い、新たな脅威に対処するために常にアップデートされた防衛策が必要です。このような研究は、悪意ある行為者からの攻撃を未然に防ぐために重要な役割を果たします。

元記事: https://www.pymnts.com/artificial-intelligence-2/2025/unit-42-warns-developers-of-technique-that-bypasses-llm-guardrails/