• Metaが4月に大規模な言語モデルLlama 3を無料で公開した際、安全制限を取り除いたバージョンが数日で開発された。
  • イリノイ大学アーバナ・シャンペーン校、UCサンディエゴ、Lapis Labs、および非営利団体AI安全センターの研究者によって開発された新しいトレーニング手法が、将来のLlamaや他のオープンソースAIモデルからそのような保護を取り除くことをより困難にする可能性がある。
  • 強力なAIモデルは通常、作成者によって隠され、ソフトウェアアプリケーションプログラミングインターフェースまたはChatGPTのような公開向けのチャットボットを介してのみアクセスできる。
  • 新しい技術により、オープンモデルを悪用するプロセスを複雑化する方法が見つかった。
  • イリノイ大学アーバナ・シャンペーン校のCenter for AI Safetyの研究者であるMantas Mazeikaは、モデルを破壊するコストが増加し、ほとんどの敵対者がそれをやめるようになる可能性があると述べている。

私の考え: オープンソースAIへの関心が高まる中、オープンモデルの保護がより一般的になる可能性がある。制限を課すことに反対する人もいますが、セキュリティを高める研究が重要であると感じます。

元記事: https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/