要旨: 自動運転は、環境がどのように変化していくかを推論し、それに応じて行動を計画することを必要とする。既存の世界モデルに基づくアプローチでは、典型的にまず将来のシーンを予測し、その後で計画を立てるため、実際の意思決定過程から逸れていく可能性のあるオープンループの想像(imagination)が生じる。本論文では、将来フレーム予測と軌跡計画を密にインタリーブ(交互に組み合わせ)する統合ビジョン-言語-行動(VLA)モデルであるUni-World VLAを提案する。計画の前に完全な世界ロールアウトを生成するのではなく、我々のモデルはステップごとに将来フレームと自己(ego)行動の予測を交互に行い、想像上の将来観測に対して計画上の判断を継続的に条件付けできるようにする。このインタリーブ生成は、世界モデリングと制御の間に閉ループの相互作用を形成し、動的な交通シナリオにおいてより適応的な意思決定を可能にする。さらに、単眼の深度情報をフレームに組み込み、世界モデリングのためのより強力な幾何学的手がかりを提供することで、長期(長ホライズン)のシーン予測を改善する。NAVSIMベンチマークでの実験により、我々の手法は高忠実度な将来フレーム予測を生成しつつ、競争力のある閉ループ計画性能を達成することが示される。これらの結果は、世界予測と計画を密に結合することが、スケーラブルなVLA自動運転システムにとって有望な方向性であることを示している。
Uni-World VLA:自動運転のためのインタリーブド・ワールドモデリングと計画
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自動運転のための統一型ビジョン・言語・行動モデル「Uni-World VLA」を提案し、将来フレーム予測と軌道計画を別々のオープンループ段階として実行するのではなく、それらをインタリーブする。
- 未来の観測と自己(エゴ)アクションをステップごとに交互に想像することで、予測されたシーンの変化に常に条件付けられた計画を維持し、ワールドモデリングと制御の間に閉ループを形成する。
- さらに、フレーム表現に単眼の奥行き手がかりを統合することで、長期(ロングホライゾン)のシーン予測を改善し、幾何学的理解を強化する。
- NAVSIMベンチマークでの実験では、高忠実度な将来フレーム予測に加えて、競争力のある閉ループ計画性能が報告されており、予測と計画の結合をより密にすることで、動的な交通状況での適応的な運転が向上し得ることが示唆される。



