Diversity-Aware Red Teaming による Vision-Language-Action モデルにおける言語的脆弱性の解明

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体性を備えたエージェントにおいて言語のニュアンスが予期しない、あるいは壊滅的な挙動を引き起こし得るという観点から、Vision-Language-Action(VLA)ロボットモデルに関する安全性のギャップに取り組む。
  • 標準的な RL ベースのレッドチーミングはモード崩壊(mode collapse)により、攻撃者が反復的な失敗パターンに限られてしまい、より広範な重要な脆弱性を見落とし得ると主張する。
  • 提案手法 DAERT(Diversity-Aware Embodied Red Teaming)は、多様性を考慮した一様ポリシーを用いて、多種多様で困難な言語指示を生成しつつ、物理シミュレータにおける実行失敗により測定される攻撃有効性を維持する。
  • 複数のロボットベンチマークに対し、最先端の VLA 2 種(π0 と OpenVLA)で実験した結果、平均タスク成功率が 93.33% から 5.85% へ低下するなど、本手法は実質的により効果的な敵対的指示を見つけられることが示される。
  • 全体として DAERT は、実環境への導入前に安全性の死角を明らかにするための、VLA エージェントに対するストレステスト手法としてスケーラブルなアプローチであると位置づけられている。

要旨: Vision-Language-Action(VLA)モデルは、ロボットの操作において目覚ましい成功を収めてきました。しかし、言語的ニュアンスに対する頑健性は、重要でありながら十分に検討されていない安全上の懸念であり、現実世界での導入に重大な安全リスクをもたらします。レッドチーミング、つまり破滅的な振る舞いを引き起こす環境シナリオを特定することは、実体(embodied)AIエージェントを安全に展開するための重要なステップです。強化学習(RL)は、自動化されたレッドチーミングに向けた有望なアプローチとして登場し、これらの脆弱性の発見を目指しています。しかし、標準的なRLベースの敵対者は、その報酬最大化の性質ゆえに、深刻なモード崩壊に陥りがちです。これは、狭い範囲の、些細または反復的な失敗パターンへと収束してしまい、有意義なリスクの全体的な景色を明らかにできないことにつながります。このギャップを埋めるために、言語の変化に対するVLAの脆弱性を明るみに出す、新しい\textbf{D}iversity-\textbf{A}ware \textbf{E}mbodied \textbf{R}ed \textbf{T}eaming(\textbf{DAERT})フレームワークを提案します。提案手法は、物理シミュレータにおける実行失敗によって測定される攻撃の有効性を維持しつつ、挑戦的な指示の多様な集合を生成できる一様ポリシーの評価に基づいています。2つの最先端VLA、すなわち\pi_0とOpenVLAに対して、異なるロボットベンチマークにわたって広範な実験を行いました。その結果、本手法は一貫して、平均タスク成功率を93.33\%から5.85\%へと低下させる、より効果的で幅広い敵対的指示の集合を発見できることが示され、VLAエージェントをストレステストするためのスケーラブルなアプローチであり、実世界での導入前に重要な安全上の盲点を露出できることを実証しました。