要旨: 視覚ベースの自律運転は、その低コストと優れた性能により大きな注目を集めている。高密度BEV(Bird's Eye View)や疎なクエリモデルと比較すると、ガウシアン中心の手法は、3Dセマンティックガウシアンでシーンを記述することで、包括的でありながら疎な表現となる。本論文では、2段階を用いて自律運転における全体論的なガウシアン中心の事前学習を可能にするために特化した、Dual Latent World Modelsによる新しいパラダイムDLWMを提案する。第1段階では、DLWMが自己教師ありで複数視点のセマンティック画像と深度画像を再構成することにより、クエリから3Dガウシアンを予測する。細粒度の文脈的特徴を備えた上で、第2段階では、時間的特徴学習のために2つの潜在世界モデルをそれぞれ別個に学習する。具体的には、下流の占有知覚および予測タスクに向けてガウシアン・フローに導かれた潜在予測を行い、運動計画に向けて自己(ego)計画に導かれた潜在予測を行う。SurroundOccおよびnuScenesベンチマークでの大規模な実験により、DLWMが、ガウシアン中心の3D占有知覚、4D占有予測、ならびに運動計画タスク全般において顕著な性能向上を示すことが確認された。
DLWM: 双対潜在ワールドモデルにより自動運転におけるホリスティックなガウシアン中心の事前学習を実現
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、視覚ベース自動運転におけるホリスティックなガウシアン中心の事前学習を目的とした二段階の学習パラダイムであるDLWM(Dual Latent World Models)を提案する。
- 第1段階では、マルチビューのセマンティック画像および深度画像を自己教師ありの再構成により再現し、きめ細かな文脈特徴を得ることで、クエリから3Dセマンティックガウシアンを予測することを学習する。
- 第2段階では、時間的特徴学習のために2つの別個の潜在ワールドモデルを学習する。1つは占有知覚および4D占有予測のために、ガウシアン・フローに導かれた潜在予測を用いる。もう1つは運動計画のために、エゴ計画に導かれた潜在予測を用いる。
- SurroundOccおよびnuScenesベンチマークでの実験により、ガウシアン中心の3D占有知覚、4D占有予測、運動計画タスクのいずれにおいても大きな性能向上が示される。



