SABER：視覚・言語・行動モデルに対するステルスなエージェント型ブラックボックス攻撃フレームワーク

arXiv cs.RO / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SABERは、視覚・言語・行動（VLA）モデルに対して、最小限かつ“それらしい”テキスト編集でロボットの挙動を狙って劣化させるブラックボックス攻撃フレームワークを提案している。
GRPOで学習したReAct型の攻撃エージェントが、文字・トークン・プロンプト単位の編集ツールを用い、編集予算（bounded edit budget）内でターゲットされた失敗や制約違反増加、行動列の過度な長期化を引き起こす。
LIBEROベンチマークで6つの最先端VLAモデルを評価した結果、SABERはタスク成功率を20.6%低下させ、行動シーケンス長を55%増やし、制約違反を33%増加させた。
さらに、強力なGPTベースのベースラインよりもツール呼び出しを21.1%削減し、文字編集も54.7%削減しつつ攻撃を成立させる点を示している。
本研究は、テキストの微小な摂動だけでロボット実行を大きく損なえること、そしてエージェント型ブラックボックスのレッドチーミング手法が実用的でスケーラブルであることを示唆している。

概要: 視覚-言語-行動（VLA）モデルは、視覚観測に根ざした自然言語の指示に基づいてロボットが行動できるようにしますが、指示チャネルは同時に重要な脆弱性も導入します。すなわち、小さなテキストの摂動によって、下流のロボット挙動が変化してしまうのです。そのため、体系的な頑健性評価には、最小限でありながら多様なVLAモデルに対して有効な指示編集を生成できるブラックボックス攻撃者が必要です。そこで本研究では、編集予算（edit budget）に制約を設けたもとで、VLAモデルに対する指示ベースの敵対的攻撃を自動生成するエージェント中心の手法「SABER」を提案します。SABERは、GRPOで訓練したReAct型の攻撃者を用いて、文字・トークン・プロンプトレベルのツールを使い、編集予算の範囲内で小さくもっともらしい敵対的な指示編集を生成します。これにより、課題の失敗、実行の不必要な長時間化、制約違反の増加といった、標的化された行動劣化が引き起こされます。6つの最先端VLAモデルにまたがるLIBEROベンチマークにおいて、SABERはタスク成功率を20.6%低下させ、アクション列の長さを55%増加させ、制約違反を33%引き上げます。その一方で、強力なGPTベースのベースラインよりもツール呼び出し数を21.1%少なくし、文字編集数を54.7%少なくします。これらの結果は、小さくもっともらしい指示編集だけでロボットの実行を大幅に劣化させるのに十分であること、また、エージェント化されたブラックボックスのパイプラインが、ロボティクスの基盤モデルに対するレッドチーミングとして、実用的でスケーラブルかつ適応的なアプローチを提供することを示しています。