MoCA3D: 画像平面における単眼3Dバウンディングボックス予測

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

MoCA3Dは、推論時にカメラ内部パラメータを必要とせず、単眼・クラス非依存の3Dモデルを導入し、投影された3Dバウンディングボックスの角点と各コーナーの深度を予測します。
ピクセル空間での局在化と深度割り当てを、コーナーのヒートマップと深度マップを用いた密な予測として実行し、単一の画像から画像平面の幾何推定を可能にします。
Pixel-Aligned Geometry（PAG）を提案し、画像平面上のコーナーと深度の一貫性を直接測定する手法であり、この指標における最先端の改善を報告します。
学習可能パラメータを最大で57分の1に抑えつつ、3D IoUで競争力を保ち、未知のカメラ内部パラメータの下で従来は実現が困難だった下流タスクを可能にします。

概要: 単眼3D物体理解はこれまで主に2DのRoIから3Dボックスへとリフトする問題として捉えられてきた。しかし、新たに生じている下流の応用では、カメラ内部パラメータが知られていないと容易には取得できない画像平面上の幾何情報（例：投影された3Dボックスのコーナー）が必要となる。野外の物体検出におけるこの課題に対処するべく、MoCA3Dを導入する。MoCA3Dは単眼・クラス非依存の3Dモデルで、推論時にカメラ内部パラメータを要求することなく、投影された3D境界ボックスのコーナーと各コーナーの深度を予測する。MoCA3Dはピクセル空間の位置推定と深度割り当てを、コーナーヒートマップと深度マップを用いた密な予測として定式化する。画像平面の幾何忠実度を評価するために、Pixel-Aligned Geometry (PAG) を提案する。PAGは画像平面のコーナーと深度の一貫性を直接測定する。広範な実験により、MoCA3Dは最先端の性能を達成し、画像平面のコーナー PAGを22.8%改善しつつ、3D IoUでは依然として同等の水準を維持し、最大で57倍もの学習可能パラメータを削減している。最後に、未知の内部パラメータの下で以前は実現が難しかった下流タスクにMoCA3Dを適用し、標準的なベースラインモデルを超える有用性を強調する。