• Anthropicの研究では、Claude 3 Sonnet 3.0モデルの内部構造の詳細なマップを作成
  • 研究者はニューロンのような機能が生成AIの出力にどのように影響するかを調査
  • 一部の機能は「安全に関連する」として識別され、危険なトピックや行動を避けるのに役立つ可能性
  • 解釈可能な機能は、モデルから読み取れる数字から人間が理解できる概念に変換可能
  • アルゴリズムであるスパースオートエンコーダによって機能が生成され、トピックの関連付けを調査
  • Anthropicはサイバーセキュリティに関連する3つの特徴を発見:不安全なコード、コードエラー、バックドア
  • 特定の特徴の強度を調整することで、モデルを調整してセキュリティに敏感なトピックを回避する可能性
  • 解釈可能な特徴の特定は、バイアスのある発言を防ぐためにAIを調整するのに役立ち、ユーザーに嘘をつかせる可能性を排除
  • Anthropicは将来、生成AIの安全性に関連するトピックをさらに追求し、不適切な行動の可能性を増やすモデルの調整を検出することを計画

この記事では、Anthropicの研究チームが生成AIの安全性とバイアスに影響を与えるLLMsについての洞察を提供しています。解釈可能な機能の特定や調整により、モデルの行動をより効果的に管理できる可能性が示唆されています。特に、サイバーセキュリティやバイアスの問題に焦点を当て、将来的な研究により生成AIの安全性向上に貢献することが期待されています。

元記事: https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/