DLWM: 双対潜在ワールドモデルにより自動運転におけるホリスティックなガウシアン中心の事前学習を実現

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、視覚ベース自動運転におけるホリスティックなガウシアン中心の事前学習を目的とした二段階の学習パラダイムであるDLWM（Dual Latent World Models）を提案する。
第1段階では、マルチビューのセマンティック画像および深度画像を自己教師ありの再構成により再現し、きめ細かな文脈特徴を得ることで、クエリから3Dセマンティックガウシアンを予測することを学習する。
第2段階では、時間的特徴学習のために2つの別個の潜在ワールドモデルを学習する。1つは占有知覚および4D占有予測のために、ガウシアン・フローに導かれた潜在予測を用いる。もう1つは運動計画のために、エゴ計画に導かれた潜在予測を用いる。
SurroundOccおよびnuScenesベンチマークでの実験により、ガウシアン中心の3D占有知覚、4D占有予測、運動計画タスクのいずれにおいても大きな性能向上が示される。

要旨: 視覚ベースの自律運転は、その低コストと優れた性能により大きな注目を集めている。高密度BEV（Bird's Eye View）や疎なクエリモデルと比較すると、ガウシアン中心の手法は、3Dセマンティックガウシアンでシーンを記述することで、包括的でありながら疎な表現となる。本論文では、2段階を用いて自律運転における全体論的なガウシアン中心の事前学習を可能にするために特化した、Dual Latent World Modelsによる新しいパラダイムDLWMを提案する。第1段階では、DLWMが自己教師ありで複数視点のセマンティック画像と深度画像を再構成することにより、クエリから3Dガウシアンを予測する。細粒度の文脈的特徴を備えた上で、第2段階では、時間的特徴学習のために2つの潜在世界モデルをそれぞれ別個に学習する。具体的には、下流の占有知覚および予測タスクに向けてガウシアン・フローに導かれた潜在予測を行い、運動計画に向けて自己（ego）計画に導かれた潜在予測を行う。SurroundOccおよびnuScenesベンチマークでの大規模な実験により、DLWMが、ガウシアン中心の3D占有知覚、4D占有予測、ならびに運動計画タスク全般において顕著な性能向上を示すことが確認された。

Black Hat Asia

AI Business

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

日経XTECH

三井住友FGが新中計を発表、IT投資3年で1兆円規模 AI活用加速

日経XTECH

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

Dev.to

DLWM: 双対潜在ワールドモデルにより自動運転におけるホリスティックなガウシアン中心の事前学習を実現

要点

関連記事

Black Hat Asia

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

三井住友FGが新中計を発表、IT投資3年で1兆円規模 AI活用加速

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer