広告

固有(インドリンズ)情報を考慮した単眼3D物体検出に向けて

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼3D物体検出がカメラの内部パラメータ(intrinsics)に対して敏感であり、異なるカメラ構成間での汎化性能が限定的であることに取り組む。
  • 内部パラメータの変化を、見かけのスケール、遠近感、幾何に影響する知覚的変換として扱う統一的な内部パラメータ対応フレームワークMonoIAを提案する。
  • MonoIAは、大規模言語モデルおよび視覚言語モデルを用いて内部パラメータ埋め込み(intrinsic embeddings)を生成し、その後、Intrinsic Adaptation Moduleによって検出ネットワークへ階層的に統合することで、カメラごとに特徴を適応させる。
  • 本手法は、内部パラメータのモデリングを数値による条件付けから意味表現へと再定義し、カメラ間でより一貫した3D検出を実現する。
  • 実験では、KITTI、Waymo、nuScenesにおいて新たな最先端(SOTA)結果が報告されており、多データセット学習ではKITTIリーダーボードで+1.18%、KITTI Valで+4.46%の改善が得られている。

Abstract

単眼3D物体検出(Mono3D)は、単一のRGB画像から3D空間における物体の位置と寸法を推定することを目的とします。近年の進展にもかかわらず、既存の手法はカメラ固有値(intrinsics)に対して依然として非常に敏感であり、さまざまな状況にまたがって一般化することが難しいままです。これは、固有値が3Dシーンを画像平面へ投影する方法を支配しているためです。そこで本研究では、言語に基づく表現を通じて固有値の変動をモデル化し、適応する、統一された「固有値を意識した(intrinsic-aware)フレームワーク」MonoIAを提案します。重要な着想は、固有値の変動は数値上の差ではなく、見かけのスケール、遠近法、空間幾何を変化させる知覚的な変換である、という点です。この効果を捉えるために、MonoIAは大規模言語モデルおよび視覚言語モデルを用いて、カメラパラメータの視覚的・幾何学的な帰結をエンコードする「固有値埋め込み(intrinsic embeddings)」を生成します。これらの埋め込みは、固有値適応モジュール(Intrinsic Adaptation Module)を通じて検出ネットワークへ階層的に統合されるため、モデルはカメラ固有の構成に応じて特徴表現を調整し、固有値が異なる場合でも一貫した3D検出を維持できます。これにより、固有値モデリングを数値的な条件付けから意味的表現へと移行し、カメラをまたいだ頑健で統一的な知覚を実現します。広範な実験の結果、MonoIAはKITTI、Waymo、nuScenesを含む標準ベンチマークにおいて新たな最先端の結果を達成します(例:KITTIリーダーボードで+1.18%)。さらに、多データセットでの学習により性能が向上します(例:KITTI Valで+4.46%)。

広告