ExploreVLA:エンドツーエンド自動運転のための高密度ワールドモデリングと探索

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ExploreVLAは、模倣学習で訓練されるエンドツーエンドの視覚-言語-行動(VLA)自動運転モデルが抱える主要な限界に対し、専門家行動分布の外側に踏み出す探索能力を追加することで対処する。
  • この手法は、軌跡予測に将来のRGB画像と深度画像の生成を拡張することで、より豊かな視覚・幾何学的な教師信号を得られるようにし、学習済みのワールドモデルを用いた高密度ワールドモデリングを行う。
  • ワールドモデルによる画像予測の不確実性を、固有の新規性(intrinsic novelty)指標へと変換し、安全であると判断できる場合に限って、分布外だが学習可能なシナリオへとポリシー探索を導く。
  • ポリシーは、安全ゲート付きの報酬をGroup Relative Policy Optimization(GRPO)で最適化して学習し、探索と安全制約を組み合わせる。
  • NAVSIMおよびnuScenesにおいて、ExploreVLAは最先端の性能を報告しており、NAVSIMでPDMSスコア93.7、EPDMS 88.8を達成している。コードとデモの公開も計画している。

Abstract

Vision-Language-Action(VLA)アーキテクチャに基づくエンドツーエンド自律運転モデルは、専門家のデモンストレーションに対する行動模倣(behavior cloning)によって運転方策を学習することで、有望な結果を示してきました。しかし、模倣学習は本質的に、観測された行動をそのまま再現することにモデルを制限し、さまざまな運転戦略を探索することができないため、新規あるいは分布外(out-of-distribution)状況では脆弱になります。強化学習(RL)は、専門家の分布を超えて方策探索を可能にすることで、この自然な解決策を提供します。とはいえ、VLAモデルは通常オフラインデータセットで学習されているため、直接観測可能な状態遷移が欠けており、行動の帰結を予測するために学習された世界モデル(world model)が必要になります。本研究では、世界モデリングを活用した「理解と生成」の統一フレームワークを提案し、意味のある探索を同時に可能にしつつ、高密度な監督信号(dense supervision)も提供します。具体的には、軌跡予測を拡張し、将来のRGB画像および深度画像の生成を高密度の世界モデリング目的として導入します。これにより、計画の背骨となる表現を大幅に豊かにするために、モデルがきめ細かな視覚的および幾何学的表現を学習する必要があります。世界モデルは監督信号として機能するだけでなく、方策探索のための固有報酬(intrinsic reward)の源としても働きます。画像予測の不確実性は、学習分布に対する軌跡の新規性を自然に測定し、不確実性が高いほど分布外状況を示します。これらは安全であるならば、有価な学習機会となります。私たちは、この探索信号を安全性ゲーティングされた報酬に組み込み、Group Relative Policy Optimization(GRPO)によって方策を最適化します。NAVSIMおよびnuScenesのベンチマークでの実験により、本アプローチの有効性が示され、NAVSIMにおいて最先端のPDMSスコア93.7およびEPDMS 88.8を達成しています。コードとデモは https://zihaosheng.github.io/ExploreVLA/ で公開予定です。