RedVLA:視覚言語行動(VLA)モデルに対するフィジカル・レッドチーミング

arXiv cs.RO / 2026/4/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、視覚言語行動(VLA)モデルの実環境展開に向けて、導入前に身体的な安全リスクを検出するための初の専用レッドチーミング枠組み「RedVLA」を提案している。
  • RedVLAは2段階のパイプラインで構成され、Risk Scenario Synthesisでタスク可能な初期のリスクシーンを作り、リスク要因をモデルの実行フローに絡めて危険な挙動を引き出しやすくする。
  • Risk Amplificationでは勾配なし最適化を、軌跡の特徴に基づいて反復的に洗練し、異種のVLAモデル間でも危険挙動の誘発を安定化させる。
  • 6つの代表的なVLAモデルでの実験により、RedVLAが多様な危険挙動を発見でき、最適化10反復以内に攻撃成功率(ASR)最大95.5%を達成することが示されている。
  • さらに、RedVLAで生成したデータを用いて学習する軽量な安全ガード「SimpleVLA-Guard」も提案されており、データ・アセット・コードは公開されている。