DreamerAD:潜在世界モデルによる自動運転のための効率的強化学習

arXiv cs.LG / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DreamerADは、自動運転向けに「潜在(latent)世界モデル」を用いた強化学習を効率化する枠組みで、拡散サンプリングを100ステップから1ステップ相当に圧縮して最大80倍の高速化を目指します。
  • これまでのピクセル空間の拡散ベース世界モデルは多段サンプリングによる高い推論遅延(例:2秒/フレーム)で高頻度なRL相互作用が難しく、DreamerADは潜在表現によりこのボトルネックを解消します。
  • 仕組みとして、(1)再帰的なマルチ解像度ステップ圧縮によるshortcut forcing、(2)潜在表現上で動作する自己回帰型の密な報酬モデルによるきめ細かなクレジット割当、(3)GRPOのためのGaussian vocabulary samplingで物理的に妥当な軌道への探索を制約します。
  • NavSim v2でDreamerADは87.7 EPDMSを達成し、潜在空間での自動運転RLが有効であることと、解釈可能性を維持しつつ性能を高められる可能性を示しています。