• Metaが4月に大規模言語モデルLlama 3を無料で公開し、安全制限を解除したバージョンが作成された
  • イリノイ大学アーバナ・シャンペーン校、UCサンディエゴ、Lapis Labs、およびCenter for AI Safetyの研究者らが開発した新しいトレーニング技術により、安全保護を削除することがより困難になる可能性がある
  • 強力なAIモデルは通常、クリエイターによって隠され、ソフトウェアAPIやChatGPTなどの公開チャットボットを介してのみアクセス可能
  • 研究者らは、オープンモデルを悪用するプロセスを複雑化させる方法を見つけた
  • このアプローチは完璧ではないが、AIモデルの「検閲解除」の障壁を高くする可能性がある

自然言語処理の分野での安全性に関する研究はますます重要となっています。オープンソースAIの普及と共に、モデルの安全保護が注目されており、今後の研究が期待されます。

元記事: https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/