要旨: 我々は、空間認識とダイナミクスに基づく潜在世界表現により強力な軌道計画を実現する、効率的なエンドツーエンド自律運転フレームワークであるLatent-WAMを導入します。既存のワールドモデルベースのプランナーは、十分に圧縮されていない表現、限られた空間理解、活用されていない時間的ダイナミクスのため、データと計算リソースが制約された状況下で最適でない計画になりがちです。Latent-WAMは、2つの中核モジュールによってこれらの制限に対処します。すなわち、基盤モデルから幾何学的知識を蒸留し、学習可能なクエリを用いて複数視点の画像をコンパクトなシーントークンへと圧縮する、空間認識型圧縮ワールドエンコーダ(SCWE)です。さらに、過去の視覚および運動表現に条件付けられた因果Transformerを用いて、将来の世界状態を自己回帰的に予測する、動的潜在ワールドモデル(DLWM)を備えます。NAVSIM v2およびHUGSIMに関する大規模な実験により、新たな最先端の結果が示されます。NAVSIM v2で89.3 EPDMS、HUGSIMで28.9 HD-Scoreを達成し、データ量と訓練条件を大幅に抑えたうえで、104Mパラメータのコンパクトなモデルで、最良の先行する知覚フリー手法を3.2 EPDMS上回ります。
Latent-WAM:エンドツーエンド自動運転のための潜在世界行動モデリング
arXiv cs.RO / 2026/3/26
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Latent-WAMは、空間的に認識可能でダイナミクスに基づいた潜在世界表現を用いることで、軌道計画を改善するエンドツーエンドの自動運転フレームワークとして提示される。