OneVL:ビジョン・ランゲージによる説明付きワンステップ潜在推論と計画

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、VLA(ビジョン・ランゲージ・アクション)自動運転におけるChain-of-Thought(CoT)の自己回帰的推論が低遅延運用を阻む点に着目し、ワンステップの潜在表現による代替を提案する。
  • OneVLとして、コンパクトな潜在トークンに推論を圧縮しつつ、デュアルの補助デコーダで学習する統合VLA+ワールドモデルの枠組みを提示する。
  • 従来の潜在CoTが主に言語的表現に依存していたのに対し、OneVLは視覚的ワールドモデルデコーダを追加して将来フレームのトークンを予測し、道路形状・エージェント運動・環境変化といった因果ダイナミクスを潜在空間に内在化させる。
  • 3段階の学習パイプラインで、潜在トークンを軌道・言語・視覚の目的に段階的に整合させ、安定した共同最適化を実現する。
  • 4つのベンチマークで、OneVLは潜在CoTとして初めて明示的CoTを上回り、回答のみの遅延で高精度を達成したと報告されている。

要旨: Chain-of-Thought(CoT)推論は、VLAベースの自動運転における軌道予測を強力に推進するものとなっている一方で、その自己回帰的な性質は、リアルタイム展開にとって許容できないレイテンシコストを課します。潜在CoT手法は、推論を連続的な隠れ状態に圧縮することでこのギャップを埋めようとしますが、明示的な対応物には一貫して及びません。我々は、これは純粋に言語的な潜在表現が、実際の走行を支配する因果ダイナミクスではなく、世界の記号的抽象化を圧縮してしまうことに起因すると考えます。そこで本研究では、OneVL(Vision-Languageの説明によるOne-step潜在推論と計画)という、VLAとWorld Modelを統一した枠組みを提案します。ここでは、二つの補助デコーダによって教師付けされたコンパクトな潜在トークンを経由して推論を行います。テキストのCoTを再構成する言語デコーダに加えて、将来フレームのトークンを予測する視覚ワールドモデルデコーダを導入し、それによって潜在空間に道路形状、エージェントの運動、および環境変化の因果ダイナミクスを内在化させます。三段階の学習パイプラインにより、これらの潜在を軌道、言語、視覚の目的へと段階的に整合させ、安定した共同最適化を実現します。推論時には補助デコーダを破棄し、すべての潜在トークンを単一の並列パスであらかじめ埋め込むことで、回答のみの予測と同等の速度を達成します。4つのベンチマークにおいて、OneVLは初めて明示的CoTを上回る潜在CoT手法となり、回答のみのレイテンシで最先端の精度を提供します。さらに、言語とワールドモデルの双方の教師信号に導かれることで、冗長なトークン逐次推論よりも圧縮をより厳密に行うことが、より汎化可能な表現を生み出すことを直接的に示す証拠を提供します。プロジェクトページ: https://xiaomi-embodied-intelligence.github.io/OneVL