ProgressVLA: 視覚言語ロボットマニピュレーションのための、進捗ガイド付き拡散ポリシー

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ProgressVLAは、ロボットマニピュレーションのための視覚言語アクションモデルとして提示され、従来のVLAシステムが終了判定にヒューリスティックに依存しているというギャップに対処するため、明示的なタスク進捗の認識を追加する。
提案手法には、大規模な教師なしのビデオテキストによるロボティクスデータセットで事前学習された堅牢な進捗推定器が含まれており、シミュレーションで残差誤差が低いこと、さらに未知の実環境サンプルに対するゼロショットでの汎化性能が示される。
また、逆ダイナミクスのワールドモデルを用いた微分可能な進捗ガイダンスを導入し、アクショントークンから将来の潜在視覚状態を予測して、これを進捗推定器で評価する。
CALVINおよびLIBEROベンチマークでの実験に加え、実環境ロボットへのデプロイメントにおいても、強力なベースラインに比べて成功率と汎化が一貫して改善することが報告されている。

要旨: 既存のほとんどの視覚-言語-行動（VLA）モデルは、ロボット操作において進捗認識の能力を欠いており、典型的には手作りのヒューリスティックに頼ってタスク終了を判断しています。この制限は、カスケードされたサブ目標を含むロングホライゾン課題において特に深刻です。本研究では、タスク進捗の推定と統合を検討し、{ extbf \vla} という新しいモデルを提案します。技術的貢献は2つです: (1) \emph{頑健な進捗推定}: 大規模な教師なしの動画-テキストのロボットデータセット上で、進捗推定器を事前学習します。この推定器は、シミュレーションにおいて低い予測残差（ $[0, 1]$ のスケールで0.07）を達成し、また未見の現実世界サンプルに対してゼロショットでの汎化を示します。さらに (2) \emph{微分可能な進捗ガイダンス}: 予測されたアクショントークンを将来の潜在視覚状態へ写像する、逆ダイナミクスの世界モデルを導入します。これらの潜在表現を進捗推定器で処理し、最大進捗正則化を適用することで、進捗に基づくガイダンスを行動トークンの洗練に用いる、微分可能なパイプラインを確立します。CALVIN および LIBERO ベンチマークに対する大規模な実験に加え、実世界ロボットへのデプロイメントも含めて、強力なベースラインに比べて成功率と汎化の両方で一貫して大幅な改善が示されます。