CAM3DNet：マルチビューカメラによる3D物体検出に向けたマルチスケール特徴の包括的マイニング

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

CAM3DNetは、マルチビューカメラ入力に対する新しいスパースなクエリベースの3D物体検出フレームワークであり、動的なマルチスケール情報の学習における非効率を解決することを目的としています。
提案する中核モジュールは3つで、CQ（Composite Query）は2Dクエリを3D空間へ投影し、ASA（Adaptive Self-Attention）は時空間のマルチスケールクエリ同士の相互作用を学習し、MSHS（Multi-Scale Hybrid Sampling）は変形可能注意機構とカメラの事前知識を用いてマルチスケールな対象情報を効率よくサンプリングします。
全体の構成は、バックボーンとFPN（Feature Pyramid Network）をエンコーダとして用い、YOLOXとDepthNetをROIヘッドにしてCQを生成し、その後デコーダでASAとMSHSを繰り返し適用して検出特徴を強化します。
nuScenes、Waymo、Argoverseでの実験によりCAM3DNetが既存のカメラベース3D物体検出手法を上回ることが示され、加えてCQ・ASA・MSHSそれぞれの寄与と計算量/空間コストを確かめるアブレーション研究も行われています。

概要: マルチビュー画像を用いるクエリベースの3D物体検出手法は、動的なマルチスケール情報を効率よく活用することがしばしば困難です。たとえば、オブジェクト特徴とクエリの幾何学的関係が十分に学習されないため、マルチスケールの時空間特徴を直接探索するとコストが過大になります。これらの課題に対処するため、我々は3つの新しいモジュール、合成クエリ（CQ）、適応的自己注意（ASA）、マルチスケール・ハイブリッド・サンプリング（MSHS）を組み合わせた新規の疎（sparse）クエリベースフレームワークCAM3DNetを提案します。まず、CQモジュールにおける中核となる考え方は、2Dクエリを3D空間へ変換するためのマルチスケール投影戦略です。次に、ASAモジュールは、時空間のマルチスケール・クエリ間の相互作用を学習します。さらに、MSHSモジュールは、変形可能注意（deformable attention）機構を用いて、マルチスケール・クエリ、ピラミッド状の特徴マップ、2Dカメラの事前知識を考慮しながら、マルチスケールのオブジェクト情報をサンプリングします。全体のモデルはエンコーダとしてバックボーンネットワークと特徴ピラミッドネットワーク（FPN）を用い、その後、ROI\_HeadとしてYOLOXとDepthNetを導入してCQを生成し、検出特徴を得るためにデコーダとしてASAとMSHSを反復的に利用します。nuScenes、Waymo、Argoverseのベンチマークデータセットに対する大規模な実験により、我々のCAM3DNetの有効性が示され、既存のほとんどのカメラベース3D物体検出手法を上回ります。加えて、CQ、ASA、MSHSそれぞれの個別効果、および空間コストと計算複雑性について、包括的なアブレーション研究を行います。