- ペンシルバニア大学工学・応用科学部の研究者らが、大規模言語モデル(LLMs)の使用に伴う主要なセキュリティ問題を警告
- RoboPAIRと名付けられた成功したジェイルブレイク攻撃を実証し、実世界の実装に対して警告
- LLMsによるテキスト処理能力により、ロボットを音声コマンドで直接制御する可能性が開かれた
- Jailbreaking LLM-Controlled Robotsと題されたプレプリントにより、AIパワードロボットにおける有害行動の実行が可能であることが示された
- 研究チームの作業は、IEEE Spectrumによって注目を浴び、オフシェルフLLMバックドロボットであるUnitree Go2を標的とした
- ジェイルブレイクは、Prompt Automatic Iterative Refinement(PAIR)プロセスの変種であるRobotPAIRを使用して自動化
- Unitree GoやNVIDIA Dolphin自動運転LLM、Clearpath Robotics Jackal UGVに対する攻撃はすべて成功
この研究は、AIパワードロボットのジェイルブレイクが可能であり、その手法が極めて容易であることを示している。ロボットが有害行動を取るかどうかを診断することは文脈依存的かつドメイン固有であり、重要な課題であると考えられる。