要約:
- AIモデルは、まだ簡単に操作や攻撃のターゲットになる可能性があり、特に丁寧に尋ねるという場合。
- 英国の新しいAI安全研究所の報告書によると、最大の4つの大規模言語モデル(LLM)は、ジェイルブレイキングに非常に脆弱であることが明らかになった。
- 研究者は、産業標準のベンチマークテストに従ってプロンプトを使用したが、一部のAIモデルはジェイルブレイキングを必要とせずに間違った応答を生成できた。
- 研究は、いくつかのLLMエージェントが「高校レベル」のハッキング問題を完了できたが、より複雑な「大学レベル」の行動を行うことができるものは少なかった。
- OpenAIは、人工知能の長期リスクを探るための安全チームであるSuperalignmentチームを解散すると報じられた。
感想:
AIモデルの脆弱性やセキュリティの問題は重要な課題であり、今後の技術発展において適切な対策が求められます。OpenAIのSuperalignmentチームの解散により、AIの長期リスクへの取り組みにおいて一部の企業がどのような方向性を取るかが注目されます。
元記事: https://mashable.com/article/ai-safety-institute-finds-security-flaws-in-llms