HERMES++:3Dシーン理解と生成のための統合型ドライビング・ワールドモデルに向けて
arXiv cs.CV / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- この論文では、自動運転に向けて3Dシーン理解と将来のジオメトリ(シーン)予測を1つの枠組みで統合する統合型ドライビング・ワールドモデル「HERMES++」を提案している。
- 複数視点の空間情報をLLMに適した形へまとめるためにBEV表現を用い、推論系の要素を空間データと結び付けられるようにしている。
- LLM強化型のワールドクエリで理解ブランチからの知識移転を行い、さらにCurrent-to-Future Linkで意味論的コンテキストから時間発展する幾何学的変化へ橋渡ししている。
- 構造の整合性を保つために、明示的な幾何学制約と、潜在表現に対する暗黙の正則化を組み合わせ、幾何学に配慮した事前分布へ整合させるJoint Geometric Optimizationを採用している。
- 複数のベンチマークで評価した結果、HERMES++は将来のポイントクラウド予測と3Dシーン理解の双方で専門手法を上回る性能を示し、モデルとコードは公開予定である。