- Anthropic社は、AIモデルの内部構造を調査し、数百万の概念がどのように表現されるかを調査した研究結果を報告
- アルファベットや人名、地名などの具体的な概念に近い概念が集まり、内部構造が人間の類推や比喩能力に対応している可能性が示唆された
- 特定の機能を人工的に操作することで、モデルの振る舞いを変化させることが可能であり、これはモデルの振る舞いを直接的に形作ることを示唆
- 特定の機能を操作することで、AIシステムの危険な振る舞いを監視したり、望ましい結果に導いたり、危険なコンテンツを取り除くことができる可能性があるとAnthropic研究チームは述べている
考察: この研究は、AIモデルの内部構造に関する洞察が、AIシステムの安全性向上に貢献できる可能性を示唆しており、機能の操作によってモデルの振る舞いを変化させることが重要であることが示唆されています。
元記事: https://gigazine.net/gsc_news/en/20240522-anthropic-mapping-mind-language-model/