AI Navigate

品質多様性プロンプト生成によるビジョン-言語-アクション(VLA)モデルのレッドチーミングと堅牢なロボットポリシーの実現

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、品質多様性(Quality Diversity)に基づくレッドチーミング手法Q-DIGを提案する。これは、タスクに関連し多様な自然言語指示を同定し、それらがVLAロボットの失敗を引き起こす指示を特定することで、堅牢性を向上させるものである。
  • Q-DIGは品質多様性技術とVision-Languageモデルを組み合わせて、VLAの挙動に潜む脆弱性を明らかにする、広範な敵対的プロンプトを生成する。
  • シミュレーションベンチマークにまたがる実験は、Q-DIGがベースライン手法よりも多様で意味のある失敗モードを発見することを示し、生成されたプロンプトを用いたVLAのファインチューニングは、未知の指示に対するタスク成功率を向上させる。
  • ユーザ調査は、プロンプトがベースラインより自然で人間らしいことを示し、実世界での評価もシミュレーション結果と一致している。

概要: Vision-Language-Action (VLA) モデルは、幅広い視覚言語タスクの実現を可能にする汎用的なロボットシステムに大きな潜在能力を持っています。
しかし、VLAベースのロボットの性能は、言語指示の表現の正確さに高度に敏感であり、そのようなロボットがいつ失敗するかを予測することは依然として難しいです。
異なる表現に対するVLAsの頑健性を高めるため、Quality Diversity for Diverse Instruction Generation(Q-DIG)を提案します。これは、タスク関連性を保ちながら失敗を誘発する多様な自然言語のタスク記述を、スケール可能に同定することでレッドチーミングを実行します。
Q-DIGはQuality Diversity (QD) 技術をVision-Language Models (VLMs)と統合し、VLAの挙動における意味のある脆弱性を露呈させる、敵対的な指示の広範なスペクトルを生成します。
複数のシミュレーションベンチマークにおける結果は、Q-DIGがベースライン法と比較してより多様で意味のある故障モードを見つけ、生成された指示でVLAsを微調整することでタスクの成功率を向上させることを示しています。
さらに、ユーザ調査の結果は、Q-DIGが生成するプロンプトが、ベースラインのものよりも自然で人間らしいと評価されることを強調しています。
最後に、Q-DIGプロンプトの実世界での評価はシミュレーションと一致する結果を示し、生成されたプロンプトでVLAsを微調整することで、未見の指示に対する成功率がさらに高まります。
これらの知見は、Q-DIGが脆弱性を特定し、VLAベースのロボットの頑健性を改善する有望なアプローチであることを示唆しています。
私たちの匿名プロジェクトのウェブサイトは、qdigvla.github.io にあります。