SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

arXiv cs.RO / 3/27/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • SABERは、視覚・言語・行動(VLA)モデルに対して、最小限かつ“それらしい”テキスト編集でロボットの挙動を狙って劣化させるブラックボックス攻撃フレームワークを提案している。
  • GRPOで学習したReAct型の攻撃エージェントが、文字・トークン・プロンプト単位の編集ツールを用い、編集予算(bounded edit budget)内でターゲットされた失敗や制約違反増加、行動列の過度な長期化を引き起こす。
  • LIBEROベンチマークで6つの最先端VLAモデルを評価した結果、SABERはタスク成功率を20.6%低下させ、行動シーケンス長を55%増やし、制約違反を33%増加させた。
  • さらに、強力なGPTベースのベースラインよりもツール呼び出しを21.1%削減し、文字編集も54.7%削減しつつ攻撃を成立させる点を示している。
  • 本研究は、テキストの微小な摂動だけでロボット実行を大きく損なえること、そしてエージェント型ブラックボックスのレッドチーミング手法が実用的でスケーラブルであることを示唆している。

Abstract

Vision-language-action (VLA) models enable robots to follow natural-language instructions grounded in visual observations, but the instruction channel also introduces a critical vulnerability: small textual perturbations can alter downstream robot behavior. Systematic robustness evaluation therefore requires a black-box attacker that can generate minimal yet effective instruction edits across diverse VLA models. To this end, we present SABER, an agent-centric approach for automatically generating instruction-based adversarial attacks on VLA models under bounded edit budgets. SABER uses a GRPO-trained ReAct attacker to generate small, plausible adversarial instruction edits using character-, token-, and prompt-level tools under a bounded edit budget that induces targeted behavioral degradation, including task failure, unnecessarily long execution, and increased constraint violations. On the LIBERO benchmark across six state-of-the-art VLA models, SABER reduces task success by 20.6%, increases action-sequence length by 55%, and raises constraint violations by 33%, while requiring 21.1% fewer tool calls and 54.7% fewer character edits than strong GPT-based baselines. These results show that small, plausible instruction edits are sufficient to substantially degrade robot execution, and that an agentic black-box pipeline offers a practical, scalable, and adaptive approach for red-teaming robotic foundation models.