CoIn3D: 構成不変なマルチカメラ3D物体検出の再検討

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチカメラ3D物体検出における重要な制約に取り組む。すなわち、マルチカメラの構成(焦点距離、外部パラメータ、アレイのレイアウト)が変わると、モデルが未見のプラットフォームへうまく一般化できないことが多い。
  • 論文は、ソースとターゲットのカメラセットアップ間における「空間的事前知識の不一致(spatial prior discrepancies)」が原因で、構成をまたいだ性能が破綻すると主張する。従来のメタカメラ手法では、これを十分に扱えていないという。
  • 著者らは、CoIn3Dという構成不変の枠組みを提案する。モデルへは空間的事前知識を空間認識型特徴変調(SFM)を通じて注入し、学習データへはカメラ認識型データ拡張(CDA)を通じて注入する。
  • SFMは、焦点距離、地面深度、地面勾配、Plücker座標を含む4つの空間表現を用いて、特徴埋め込みにおける転移を強化する。一方、CDAは、学習不要の動的な新規ビュー画像合成により、構成間での観測の多様化を図る。
  • NuScenes、Waymo、Lyftでの実験により、主要なMC3Dパラダイム3種(BEVDepth、BEVFormer、PETR)において、構成をまたいだ強力な結果が示される。
広告