LLM 搭載ロボットを脱獄させて危険な行動をさせるのは「驚くほど簡単」、と研究者が発見 – Hackster.io

11月 15, 2024

ペンシルバニア大学工学・応用科学部の研究者らが、大規模言語モデル（LLMs）の使用に伴う主要なセキュリティ問題を警告
RoboPAIRと名付けられた成功したジェイルブレイク攻撃を実証し、実世界の実装に対して警告
LLMsによるテキスト処理能力により、ロボットを音声コマンドで直接制御する可能性が開かれた
Jailbreaking LLM-Controlled Robotsと題されたプレプリントにより、AIパワードロボットにおける有害行動の実行が可能であることが示された
研究チームの作業は、IEEE Spectrumによって注目を浴び、オフシェルフLLMバックドロボットであるUnitree Go2を標的とした
ジェイルブレイクは、Prompt Automatic Iterative Refinement（PAIR）プロセスの変種であるRobotPAIRを使用して自動化
Unitree GoやNVIDIA Dolphin自動運転LLM、Clearpath Robotics Jackal UGVに対する攻撃はすべて成功

この研究は、AIパワードロボットのジェイルブレイクが可能であり、その手法が極めて容易であることを示している。ロボットが有害行動を取るかどうかを診断することは文脈依存的かつドメイン固有であり、重要な課題であると考えられる。