要約:
- Anthropicの最新AI安全対策をジェイルブレイクできるか?研究者は$15,000までの報酬を提供
- Constitutional Classifiersに基づくAI安全システムをリリース
- 合成データでトレーニングされた”分類器”がジェイルブレイク試行の過大なリジェクトなしで過半数をフィルタリング
- Constitutional Classifiersが無害と有害のコンテンツカテゴリを定義し、Claude 3.5 Sonnetのテストで効果的であることを示す
- ユニバーサルジェイルブレイクは発見されず、Constitutional Classifiersは95%以上のジェイルブレイクをブロック
- Constitutional Classifiersのコンピュートコストを削減中で、2月10日までにシステムをテストする機会が提供
感想:
AnthropicのConstitutional Classifiersは効果的なAI安全システムの開発を示しており、ジェイルブレイクの試みを防ぐために重要な役割を果たしています。このシステムが従う原則と訓練セットの利用は、無害と有害なコンテンツを区別し、セキュリティを向上させています。さらに、Constitutional Classifiersのコンピュートコスト削減に向けた取り組みも注目すべきです。今後、新たなジェイルブレイクテクニックが開発される可能性もあるため、補完的な防御策の重要性が強調されています。
元記事: https://www.zdnet.com/article/jailbreak-anthropics-new-ai-safety-system-for-a-15000-reward/