• Metaの機械学習モデルは、プロンプトインジェクション攻撃を検出するためのものであり、そのモデル自体がプロンプトインジェクション攻撃に対して脆弱性を持っている
  • Prompt-Guard-86MはMetaが導入したものであり、Llama 3.1生成モデルと共に先週発表されたもので、「開発者がプロンプトインジェクションやジェイルブレイク入力を検出し、対応するのを支援する」ことを目的としている
  • 大規模言語モデル(LLMs)は大量のテキストやデータで訓練され、要求に応じてそれを模倣する可能性があり、危険な、疑わしい、または個人情報を含む素材の場合には理想的ではないため、AIモデルの作成者は「ガードレール」と呼ばれるフィルタリングメカニズムを構築している
  • AIモデルを使用する人々は、プロンプトインジェクションやジェイルブレイクを用いてガードレールを回避しようとしており、これは広く知られているが未解決の問題である
  • MetaのPrompt-Guard-86M分類モデルは、「Ignore previous instructions…」というプロンプトを追加するだけで「前の指示を無視する」と要求することができる

この技術記事では、Metaの機械学習モデルにおける脆弱性と具体的な攻撃手法について詳細に説明されています。AIモデルのセキュリティに対する理解と対策がますます重要になっていることが示されています。

元記事: https://www.theregister.com/2024/07/29/meta_ai_safety/