StageCraft:VLAモデルにおける気をそらす対象および障害物による失敗を実行状況を踏まえて緩和する手法

arXiv cs.RO / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットの作業空間に気をそらす対象や物理的な障害物が現れると、特に未見の環境において、Vision Language Action(VLA)モデルが実行中に失敗し得ることを示している。
  • 提案手法であるStageCraftは、トレーニング不要のプラグアンドプレイ方式であり、VLMのインコンテキスト推論を用いて、予測される実行失敗を防ぐために環境の初期状態を変更する。
  • StageCraftは、ポリシーのロールアウト動画と成功/失敗ラベルを受け取り、障害物や気をそらす対象に関連した破綻を回避するために操作すべき初期状態の対象物を推定する。
  • 実験では、多様な気をそらす対象および障害物を含む3つの実世界ドメインにおいて、絶対値で40%の性能向上が報告されており、RLBenchシミュレーションでは、介入の強さが基盤となるポリシーに応じて適応し、インコンテキストのサンプル数が増えるほど改善することが示されている。

概要: テキストと画像データに対する大規模な事前学習、および多様なロボットのデモンストレーションは、視覚言語アクションモデル(VLA)が新しいタスク、対象、シーンへと汎化するのを助けてきました。しかし、これらのモデルは、実行時に妨げとなるもの、たとえばロボットの作業空間内の気を散らす要素(distractors)や物理的な障害物が存在する場合、依然として失敗に対して脆弱です。既存の方策改善手法は、基礎となるVLAを微調整して汎化を向上させますが、それでも未知の気を散らす設定(distractor settings)ではうまくいきません。この問題に対処するために、大規模視覚言語モデル(VLM)のインターネット規模の事前学習を活用して、これらの妨げを推論し、方策の失敗を緩和できるかどうかを調査します。そのために本研究では、VLMに基づくインコンテキスト推論によって環境の初期状態を操作することで、事前学習済みVLA方策の性能を改善する、訓練不要のアプローチであるStageCraftを提案します。StageCraftは、方策のロールアウト動画と成功ラベルを入力として受け取り、初期状態において、予測される実行失敗を避けるためにどの対象物を操作する必要があるかを推論するためにVLMの推論能力を活用します。StageCraftは、基盤となる方策に追加の制約を導入しない、拡張可能なプラグアンドプレイ型のモジュールであり、機能させるために必要なのは少数の方策ロールアウトのみです。私たちは、StageCraftを用いた最先端のVLAモデルの性能を評価し、多様な気を散らす要素や障害物を含む3つの現実世界のタスク領域において、絶対的に40%の性能向上を示します。RLBenchでのシミュレーション実験は、StageCraftが介入の度合いを基盤となる方策の強さに応じて調整し、インコンテキストサンプル数が多いほど性能が向上することを実証的に示しています。StageCraftが実際に機能している様子は、https://stagecraft-decorator.github.io/stagecraft/ で確認できます。