CoIn3D: 構成不変なマルチカメラ3D物体検出の再検討

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチカメラ3D物体検出における重要な制約に取り組む。すなわち、マルチカメラの構成（焦点距離、外部パラメータ、アレイのレイアウト）が変わると、モデルが未見のプラットフォームへうまく一般化できないことが多い。
論文は、ソースとターゲットのカメラセットアップ間における「空間的事前知識の不一致（spatial prior discrepancies）」が原因で、構成をまたいだ性能が破綻すると主張する。従来のメタカメラ手法では、これを十分に扱えていないという。
著者らは、CoIn3Dという構成不変の枠組みを提案する。モデルへは空間的事前知識を空間認識型特徴変調（SFM）を通じて注入し、学習データへはカメラ認識型データ拡張（CDA）を通じて注入する。
SFMは、焦点距離、地面深度、地面勾配、Plücker座標を含む4つの空間表現を用いて、特徴埋め込みにおける転移を強化する。一方、CDAは、学習不要の動的な新規ビュー画像合成により、構成間での観測の多様化を図る。
NuScenes、Waymo、Lyftでの実験により、主要なMC3Dパラダイム3種（BEVDepth、BEVFormer、PETR）において、構成をまたいだ強力な結果が示される。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to