固有（インドリンズ）情報を考慮した単眼3D物体検出に向けて

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単眼3D物体検出がカメラの内部パラメータ（intrinsics）に対して敏感であり、異なるカメラ構成間での汎化性能が限定的であることに取り組む。
内部パラメータの変化を、見かけのスケール、遠近感、幾何に影響する知覚的変換として扱う統一的な内部パラメータ対応フレームワークMonoIAを提案する。
MonoIAは、大規模言語モデルおよび視覚言語モデルを用いて内部パラメータ埋め込み（intrinsic embeddings）を生成し、その後、Intrinsic Adaptation Moduleによって検出ネットワークへ階層的に統合することで、カメラごとに特徴を適応させる。
本手法は、内部パラメータのモデリングを数値による条件付けから意味表現へと再定義し、カメラ間でより一貫した3D検出を実現する。
実験では、KITTI、Waymo、nuScenesにおいて新たな最先端（SOTA）結果が報告されており、多データセット学習ではKITTIリーダーボードで+1.18%、KITTI Valで+4.46%の改善が得られている。

Abstract

単眼3D物体検出（Mono3D）は、単一のRGB画像から3D空間における物体の位置と寸法を推定することを目的とします。近年の進展にもかかわらず、既存の手法はカメラ固有値（intrinsics）に対して依然として非常に敏感であり、さまざまな状況にまたがって一般化することが難しいままです。これは、固有値が3Dシーンを画像平面へ投影する方法を支配しているためです。そこで本研究では、言語に基づく表現を通じて固有値の変動をモデル化し、適応する、統一された「固有値を意識した（intrinsic-aware）フレームワーク」MonoIAを提案します。重要な着想は、固有値の変動は数値上の差ではなく、見かけのスケール、遠近法、空間幾何を変化させる知覚的な変換である、という点です。この効果を捉えるために、MonoIAは大規模言語モデルおよび視覚言語モデルを用いて、カメラパラメータの視覚的・幾何学的な帰結をエンコードする「固有値埋め込み（intrinsic embeddings）」を生成します。これらの埋め込みは、固有値適応モジュール（Intrinsic Adaptation Module）を通じて検出ネットワークへ階層的に統合されるため、モデルはカメラ固有の構成に応じて特徴表現を調整し、固有値が異なる場合でも一貫した3D検出を維持できます。これにより、固有値モデリングを数値的な条件付けから意味的表現へと移行し、カメラをまたいだ頑健で統一的な知覚を実現します。広範な実験の結果、MonoIAはKITTI、Waymo、nuScenesを含む標準ベンチマークにおいて新たな最先端の結果を達成します（例：KITTIリーダーボードで+1.18%）。さらに、多データセットでの学習により性能が向上します（例：KITTI Valで+4.46%）。