3D基盤モデルの事前知識を用いた、視点に頑健なエンドツーエンド自動運転への取り組み

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エンドツーエンド自動運転における重要な制約として、カメラの視点が学習分布から変化すると多くの軌道計画モデルが性能低下を起こす点を扱う。
そこで、3D基盤モデルから得られる幾何学的な事前知識を用い、深度推定に基づくピクセルごとの3D位置を位置埋め込みとして注入し、クロスアテンションにより幾何学的な中間特徴を融合することで、データ拡張を行わない手法を提案する。
VR-Driveベンチマーク（カメラ視点の摂動）での実験により、ほとんどの摂動タイプにおいて性能低下が抑えられることが示される。
改善が最も明確なのはピッチおよび高さの摂動であり、縦方向の並進に対する頑健性向上はより小さい。これは、視点非依存な統合をさらに進める必要があることを示唆している。
全体として、本研究は、エンドツーエンドのパイプラインに3D幾何学的事前知識を組み込むことで、追加のデータ拡張に頼らずに視点頑健性を高められる可能性を示している。