ExploreVLA:エンドツーエンド自動運転のための高密度ワールドモデリングと探索
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ExploreVLAは、模倣学習で訓練されるエンドツーエンドの視覚-言語-行動(VLA)自動運転モデルが抱える主要な限界に対し、専門家行動分布の外側に踏み出す探索能力を追加することで対処する。
- この手法は、軌跡予測に将来のRGB画像と深度画像の生成を拡張することで、より豊かな視覚・幾何学的な教師信号を得られるようにし、学習済みのワールドモデルを用いた高密度ワールドモデリングを行う。
- ワールドモデルによる画像予測の不確実性を、固有の新規性(intrinsic novelty)指標へと変換し、安全であると判断できる場合に限って、分布外だが学習可能なシナリオへとポリシー探索を導く。
- ポリシーは、安全ゲート付きの報酬をGroup Relative Policy Optimization(GRPO)で最適化して学習し、探索と安全制約を組み合わせる。
- NAVSIMおよびnuScenesにおいて、ExploreVLAは最先端の性能を報告しており、NAVSIMでPDMSスコア93.7、EPDMS 88.8を達成している。コードとデモの公開も計画している。



