微調整なしでVLAを展開するために:エンベデッド進化的拡散による推論時プラグアンドプレイVLAポリシー誘導

arXiv cs.RO / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 視覚と言語と行動を扱うVLAモデルはロボティクス操作で有望だが、事前学習ポリシーは下流環境の導入時に大きく性能が落ちるという課題がある。
  • 本研究は、微調整や追加のデータ収集を一切行わず、推論時のみでVLAポリシーを誘導する「VLA-Pilot」を提案しており、事前学習済みモデルのゼロショット展開をプラグアンドプレイで可能にする。
  • VLA-Pilotは2種類のロボット形態と実環境の6つのタスクで評価され、イン・ディストリビューションだけでなくアウト・オブ・ディストリビューションでも有効性が確認された。
  • 実験結果は、既製の事前学習済みVLAポリシーの成功率を大幅に向上させ、多様なタスクや機体への堅牢なゼロショット汎化を実現できることを示している。

Abstract

Vision-Language-Action(VLA)モデルは、実世界のロボットによるマニピュレーションにおいて大きな可能性を示してきました。しかし、事前学習済みのVLAポリシーは、下流への展開時に依然として大幅な性能劣化に悩まされています。微調整によってこの問題を緩和することは可能ですが、高コストなデモ収集と集中的な計算への依存により、実世界の環境では現実的ではありません。本研究では、追加の微調整やデータ収集を一切行わずに、事前学習済みVLAをゼロショットで展開するための、プラグアンドプレイの推論時ポリシー制御手法であるVLA-Pilotを提案します。VLA-Pilotを、2種類の異なるロボット実体にまたがり、合計6つの実世界の下流マニピュレーション課題に対して評価し、イン分布およびアウト分布の両方のシナリオを含めます。実験結果は、VLA-Pilotが、市販の既製(off-the-shelf)の事前学習済みVLAポリシーの成功率を大幅に向上させ、多様な課題や実体への頑健なゼロショット汎化を可能にすることを示しています。実験動画およびコードは以下で利用可能です: https://rip4kobe.github.io/vla-pilot/