HERMES++:3Dシーン理解と生成のための統合型ドライビング・ワールドモデルに向けて

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文では、自動運転に向けて3Dシーン理解と将来のジオメトリ(シーン)予測を1つの枠組みで統合する統合型ドライビング・ワールドモデル「HERMES++」を提案している。
  • 複数視点の空間情報をLLMに適した形へまとめるためにBEV表現を用い、推論系の要素を空間データと結び付けられるようにしている。
  • LLM強化型のワールドクエリで理解ブランチからの知識移転を行い、さらにCurrent-to-Future Linkで意味論的コンテキストから時間発展する幾何学的変化へ橋渡ししている。
  • 構造の整合性を保つために、明示的な幾何学制約と、潜在表現に対する暗黙の正則化を組み合わせ、幾何学に配慮した事前分布へ整合させるJoint Geometric Optimizationを採用している。
  • 複数のベンチマークで評価した結果、HERMES++は将来のポイントクラウド予測と3Dシーン理解の双方で専門手法を上回る性能を示し、モデルとコードは公開予定である。

Abstract

世界モデルを駆動する手法は、環境ダイナミクスをシミュレートすることで、自動運転のための重要な技術として機能します。しかし、既存のアプローチは主に将来のシーン生成に焦点を当てることが多く、包括的な3Dシーン理解を見落としがちです。一方で、大規模言語モデル(LLM)は目覚ましい推論能力を示すものの、将来の幾何学的な発展を予測する能力が欠けており、その結果、意味的解釈と物理シミュレーションの間には大きな隔たりが生じます。このギャップを埋めるために、我々は、単一の枠組みの中で3Dシーン理解と将来の幾何学予測を統合する統一型の運転世界モデルであるHERMES++を提案します。提案手法は、これらのタスクがそれぞれ持つ異なる要求を、相乗的な設計によって満たします。まず、BEV表現により、多視点の空間情報をLLMと互換性のある構造へと統合します。次に、理解ブランチからの知識転移を促進するために、LLM強化型の世界クエリを導入します。第三に、時間的ギャップを埋めるためにCurrent-to-Future Linkを設計し、意味的文脈に基づいて幾何学的な発展を条件付けます。最後に、構造の整合性を強制するため、明示的な幾何学的制約を、内部表現を幾何学を意識した事前知識へ整列させる暗黙的な潜在正則化と統合する、Joint Geometric Optimization戦略を採用します。複数のベンチマークに対する広範な評価により、本手法の有効性が検証されています。HERMES++は強力な性能を達成し、将来のポイントクラウド予測および3Dシーン理解の両方のタスクにおいて、専門特化型の手法を上回ります。このモデルとコードはhttps://github.com/H-EmbodVis/HERMESV2で公開予定です。