要旨: 視覚-言語-行動(VLA)モデルは、知覚と 言語を行動へと結び付ける身体化エージェントを構築するための有望なパラダイムとして登場している。 しかし、既存のほとんどの手法は直接的な行動予測に依存しており、長い地平(ホライズン)にわたる軌道を推論し、その結果を評価する能力を欠いているため、複雑な意思決定タスクにおける性能が制限される。 本研究では、VLAシステムにおいて暗黙的な計画を可能にする統一フレームワークである World-Value-Action(WAV)モデルを提案する。 WAVモデルは、明示的な軌道最適化を行うのではなく、視覚観測と 言語指示条件付けのもとで、将来軌道のための構造化された潜在表現を学習する。 学習された世界モデルは将来状態を予測し、一方で軌道価値関数がそれらの長期的な有用性を評価する。 行動生成はその後、この潜在空間における推論として定式化され、モデルは高い価値を持ち、かつ動的に実行可能な軌道へと確率質量を段階的に集中させる。 さらに、理論的観点として、計画を行動空間で直接行うと、地平が長くなるほど実行可能な軌道の確率が指数関数的に減衰することを示す。 これに対して、潜在空間での推論は探索分布を実行可能領域へと再配置し、効率的な長期的意思決定を可能にする。 大規模なシミュレーションおよび現実世界での実験により、WAVモデルが最先端手法を一貫して上回り、タスク成功率、汎化能力、頑健性のいずれにおいても大幅な改善を達成することを示す。 特に長い地平および合成(コンポジショナル)シナリオにおいて顕著である。
World-Value-Actionモデル:視覚言語アクションシステムにおける暗黙的プランニング
arXiv cs.RO / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- World-Value-Action(WAV)モデルは、Vision-Language-Action(VLA)システムを、直接的な行動予測に依存するだけでなく長期的なプランニングを暗黙的に可能にすることで改善することを目指しています。
- WAVは、将来軌道の構造化された潜在表現を学習し、学習された世界モデルで将来状態を予測し、軌道価値関数で長期的な有用性を評価します。
- 行動生成は潜在空間での推論として行われ、高い価値を持ちかつ動力学的に実現可能な軌道へ確率質量を段階的に集中させます。
- 著者らは、行動空間でのプランニングはホライズンが長くなるほど実現可能な軌道の確率が指数的に減衰するため非効率になる、という理論的観点を示します。一方で潜在空間の推論は探索分布を実現可能領域へより適切に再配置できるとしています。
- シミュレーションと実環境の実験により、WAVが既存の最先端手法を一貫して上回り、特に長期タスクや合成的(compositional)シナリオで、タスク成功率・汎化性能・頑健性の大幅な向上が確認されています。



