DriveDreamer-Policy: 統一された生成と計画のための幾何学に基づくワールド・アクション・モデル

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、身体化された運転タスクにおいて、生成（深度と将来の動画）と計画（運転アクション）を統一するための、幾何学に基づくワールド・アクション・モデルである DriveDreamer-Policy を提案する。
大規模言語モデルを用いて、言語による指示、多視点画像、アクションを統合し、その後に3つの軽量ジェネレータを活用して、深度、将来動画、アクションの出力を生成する。
幾何学を意識したワールド表現を学習することで、想像した未来の整合性が向上し、単一のモジュラー・アーキテクチャの下で、より情報に基づいた運転アクションが可能になる。
Navsim v1 および v2 での実験では、クローズドループ計画とワールド生成の結果が良好であり、89.2 PDMS（Navsim v1）および 88.7 EPDMS（Navsim v2）を達成した。これは、従来のワールドモデルベースの手法に対して改善を示す。
アブレーション結果から、明示的な深度学習が補完的な効果をもたらし、動画想像の品質が向上するとともに、計画の頑健性が高まることが示される。

要旨: 近年、世界アクションモデル（WAM）が、視覚-言語-行動（VLA）モデルと世界モデルを橋渡しする形で登場し、推論と指示追従の能力、ならびに空間・時間にまたがる世界のモデリングを統合している。しかし、既存のWAM手法の多くは、2Dの見た目や潜在表現のモデリングに焦点を当てることが多く、物理世界で動作するエンボディドシステムにとって不可欠な幾何学的な根拠付け（grounding）が十分に扱われていない。我々は、深度生成、将来動画生成、モーションプランニングを単一のモジュール型アーキテクチャ内で統合する統一型ドライビング世界アクションモデルであるDriveDreamer-Policyを提案する。このモデルは、大規模言語モデルを用いて言語指示、多視点画像、行動を処理し、その後に軽量な3つのジェネレータで深度、将来動画、行動を生成する。幾何学に配慮した世界表現を学習し、それを統一的な枠組みの中で将来予測とプランニングの双方を導くために用いることで、提案モデルは、モジュール性と制御可能な遅延を維持しつつ、より首尾一貫した想像上の未来と、より情報に基づいた運転行動を生成する。Navsim v1およびv2ベンチマークでの実験により、DriveDreamer-Policyがクローズドループのプランニング課題と世界生成課題の両方で強い性能を達成することが示される。特に本モデルは、Navsim v1で89.2 PDMS、Navsim v2で88.7 EPDMSに到達し、既存の世界モデルベース手法を上回るとともに、高品質な将来動画および深度予測を生成する。アブレーション研究でも、明示的な深度学習が動画の想像に対して補完的な利点をもたらし、プランニングの堅牢性を向上させることがさらに示される。