- 今週のBlack Hat EuropeでSophosAIのSenior Data Scientist Tamás Vörösが40分のプレゼンテーションを行う
- プレゼンタイトルは「LLMbotomy: Shutting the Trojan Backdoors」で、Trojanized Large Language Models(LLMs)による潜在的なリスクとその緩和方法に焦点を当てる
- 従来のLLMsに関する研究は、主に「prompt injection」攻撃などの外部脅威に焦点を当ててきた
- SophosAIの研究では、LLMsの訓練中に挿入されたTrojan backdoorsによる埋め込み脅威に焦点を当て、それらを無効化する方法を調査
- 研究は、LLMのニューロンのターゲット化「noising」を実証し、モデルに埋め込まれたほとんどのトロイの無効化が効果的であることを示した
- Vörösによる研究の完全なレポートはBlack Hat Europe後に公開される予定
研究では、LLMsに挿入されたトロイの無効化方法を提案し、その有効性を示しています。外部脅威だけでなく、埋め込み脅威にも焦点を当てることで、モデルのセキュリティを向上させるアプローチが示されています。