JailWAM: Jailbreaking World Action Models in Robot Control
arXiv cs.RO / 4/8/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 世界行動モデル(World Action Model: WAM)は将来の状態と行動を同時予測し、従来より強い物理操作能力を示す一方で、安全性が軽視されると人身・財産・環境への脅威になり得る。
- WAMに対するジェイルブレイク攻撃への脆弱性という重要なセキュリティギャップが未解決であるとして、本研究はThree-Level Safety Classification Frameworkでロボットアーム動作の安全性を体系的に定量化する枠組みを提示する。
- さらに、WAM専用の初めてのジェイルブレイク攻撃・評価フレームワークJailWAMを提案し、(1)視覚-軌跡マッピング、(2)高リコールのRisk Discriminator、(3)デュアルパス検証(粗いスクリーニング→閉ループ物理シミュレーションでの検証)を中核要素として構成する。
- RoboTwinシミュレーションでの実験ではJailWAMが物理的脆弱性を効率的に露呈でき、最先端のLingBot-VAで攻撃成功率84.2%を達成し、JailWAMを基にした防御設計も可能であると示される。
Related Articles

Black Hat Asia
AI Business
Meta's latest model is as open as Zuckerberg's private school
The Register

AI fuels global trade growth as China-US flows shift, McKinsey finds
SCMP Tech
Why multi-agent AI security is broken (and the identity patterns that actually work)
Dev.to
BANKING77-77: New best of 94.61% on the official test set (+0.13pp) over our previous tests 94.48%.
Reddit r/artificial