要約

  • US AISIとUK AISIはAnthropicの最新モデル、Claude 3.5 Sonnetの事前展開評価を共同で実施
  • 4つの領域を評価対象にし、生物学的能力、サイバー能力、ソフトウェアとAI開発、セーフガード効果を検証
  • モデルの相対能力を評価し、改善点を科学的に解釈するために比較テストを実施
  • 生物学的能力に関する結果を公開、サイバー能力、ソフトウェア開発、セーフガード効果についてもテスト実施

感想

AIの進歩は生物学研究など多くの分野で革新的なイノベーションを可能にしています。ただし、その能力は悪用される可能性もあることが指摘されています。US AISIとUK AISIの評価は、AIの安全性の向上を目指す重要な取り組みであり、今後のリスクと能力に適切に対処するために重要です。

元記事: https://www.nist.gov/news-events/news/2024/11/pre-deployment-evaluation-anthropics-upgraded-claude-35-sonnet