連結車両に対する自己教師ありサラウンド深度推定のための車両間3D幾何整合性

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、乗用車中心の既存手法では難しい連結(関節)車両を対象とした、自己教師ありマルチカメラによるサラウンド視野深度推定フレームワーク「ArticuSurDepth」を提案する。
  • マルチビューの空間コンテキスト強化、ビュー間の表面法線に関する制約、ならびに連結車両間の姿勢整合性を通じて、車両の連結セグメントにまたがる結合運動を扱うことで、深度学習を改善する。
  • メートルスケールの深度を促すために、本手法は地面平面の認識に基づくカメラ高さ正則化を追加し、予測深度のスケールを現実の幾何とよりよく整合させることを狙う。
  • 著者らは、自ら収集したデータセットに基づく新たに構築した連結車両実験プラットフォームで提案手法を検証し、自身のデータセットおよびDDAD、nuScenes、KITTIを含む既存ベンチマークの双方で最先端の性能を報告する。
  • 本フレームワークは、視覚基盤モデルから得られる構造的事前知識に導かれ、空間的および時間的コンテキスト全体での構造的な整合性を高める。

要旨: 深度推定の周辺視(surround depth estimation)は、自動運転における3D知覚のためのLiDARに代わる費用対効果の高い手段を提供する。近年の自己教師あり手法は、スケールの認識力やシーンのカバー範囲を改善するためにマルチカメラ設定を探っているが、主として乗用車を対象としており、関節(アーティキュレート)車両やロボティクス・プラットフォームを考慮することは稀である。関節構造は、複雑なセグメント間の幾何と運動の結合をもたらし、ビュー間で一貫した深度推論を行うことをより困難にする。本研究では、
\textbf{ArticuSurDepth} を提案する。これは、関節車両向けの周辺視深度推定のための自己教師ありフレームワークであり、視覚の基盤モデルから得られる構造的事前知識に導かれた、ビュー間および車両間の幾何学的整合性を通じて深度学習を強化する。具体的には、マルチビューの空間的文脈を強化する戦略と、ビュー間のサーフェス法線(surface normal)に対する制約を導入し、空間的・時間的な文脈をまたいで構造の一貫性を高める。さらに、路面(地面)への認識を伴うカメラ高さの正則化を組み込み、メートル単位の深度推定を促す。また、関節セグメント間の運動推定をつなぐ、車両間の姿勢整合性(pose consistency)も取り入れる。提案手法を検証するために、関節車両の実験用プラットフォームを構築し、そこからデータセットを収集した。実験結果は、自作のデータセットに加えて、DDAD、nuScenes、KITTI の各ベンチマークにおいて、深度推定で最先端(SoTA)の性能を示す。