土. 12月 6th, 2025

Anthropic の新しい AI 安全システムを脱獄して 15,000 ドルの報酬を獲得 | ZDNET

ByManagetech

2月 5, 2025

要約:

Anthropicの最新AI安全対策をジェイルブレイクできるか？研究者は$15,000までの報酬を提供
Constitutional Classifiersに基づくAI安全システムをリリース
合成データでトレーニングされた”分類器”がジェイルブレイク試行の過大なリジェクトなしで過半数をフィルタリング
Constitutional Classifiersが無害と有害のコンテンツカテゴリを定義し、Claude 3.5 Sonnetのテストで効果的であることを示す
ユニバーサルジェイルブレイクは発見されず、Constitutional Classifiersは95%以上のジェイルブレイクをブロック
Constitutional Classifiersのコンピュートコストを削減中で、2月10日までにシステムをテストする機会が提供

感想:

AnthropicのConstitutional Classifiersは効果的なAI安全システムの開発を示しており、ジェイルブレイクの試みを防ぐために重要な役割を果たしています。このシステムが従う原則と訓練セットの利用は、無害と有害なコンテンツを区別し、セキュリティを向上させています。さらに、Constitutional Classifiersのコンピュートコスト削減に向けた取り組みも注目すべきです。今後、新たなジェイルブレイクテクニックが開発される可能性もあるため、補完的な防御策の重要性が強調されています。

元記事: https://www.zdnet.com/article/jailbreak-anthropics-new-ai-safety-system-for-a-15000-reward/

By Managetech

Related Post

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech

研究者たちは現在、ロボットに AI を組み込んで物理的な作業を実行させている | ノーザンパブリックラジオ: WNIJ および WNIU

3月 18, 2025 Managetech

マイクロソフトが誤ってWindows 11から嫌われているAI機能を削除したことにユーザーが歓喜

3月 18, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech