固有(インドリンズ)情報を考慮した単眼3D物体検出に向けて
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単眼3D物体検出がカメラの内部パラメータ(intrinsics)に対して敏感であり、異なるカメラ構成間での汎化性能が限定的であることに取り組む。
- 内部パラメータの変化を、見かけのスケール、遠近感、幾何に影響する知覚的変換として扱う統一的な内部パラメータ対応フレームワークMonoIAを提案する。
- MonoIAは、大規模言語モデルおよび視覚言語モデルを用いて内部パラメータ埋め込み(intrinsic embeddings)を生成し、その後、Intrinsic Adaptation Moduleによって検出ネットワークへ階層的に統合することで、カメラごとに特徴を適応させる。
- 本手法は、内部パラメータのモデリングを数値による条件付けから意味表現へと再定義し、カメラ間でより一貫した3D検出を実現する。
- 実験では、KITTI、Waymo、nuScenesにおいて新たな最先端(SOTA)結果が報告されており、多データセット学習ではKITTIリーダーボードで+1.18%、KITTI Valで+4.46%の改善が得られている。




