DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

arXiv cs.LG / 3/26/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • DreamerADは、自動運転向けに「潜在(latent)世界モデル」を用いた強化学習を効率化する枠組みで、拡散サンプリングを100ステップから1ステップ相当に圧縮して最大80倍の高速化を目指します。
  • これまでのピクセル空間の拡散ベース世界モデルは多段サンプリングによる高い推論遅延(例:2秒/フレーム)で高頻度なRL相互作用が難しく、DreamerADは潜在表現によりこのボトルネックを解消します。
  • 仕組みとして、(1)再帰的なマルチ解像度ステップ圧縮によるshortcut forcing、(2)潜在表現上で動作する自己回帰型の密な報酬モデルによるきめ細かなクレジット割当、(3)GRPOのためのGaussian vocabulary samplingで物理的に妥当な軌道への探索を制約します。
  • NavSim v2でDreamerADは87.7 EPDMSを達成し、潜在空間での自動運転RLが有効であることと、解釈可能性を維持しつつ性能を高められる可能性を示しています。

Abstract

We introduce DreamerAD, the first latent world model framework that enables efficient reinforcement learning for autonomous driving by compressing diffusion sampling from 100 steps to 1 - achieving 80x speedup while maintaining visual interpretability. Training RL policies on real-world driving data incurs prohibitive costs and safety risks. While existing pixel-level diffusion world models enable safe imagination-based training, they suffer from multi-step diffusion inference latency (2s/frame) that prevents high-frequency RL interaction. Our approach leverages denoised latent features from video generation models through three key mechanisms: (1) shortcut forcing that reduces sampling complexity via recursive multi-resolution step compression, (2) an autoregressive dense reward model operating directly on latent representations for fine-grained credit assignment, and (3) Gaussian vocabulary sampling for GRPO that constrains exploration to physically plausible trajectories. DreamerAD achieves 87.7 EPDMS on NavSim v2, establishing state-of-the-art performance and demonstrating that latent-space RL is effective for autonomous driving.