クエリを制御せよ:カメラ・レーダー融合のための異種クエリ相互作用

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自動運転におけるカメラ・レーダー融合に対し、異種クエリ相互作用と呼ぶ新しい融合パラダイムを提案し、相補的なセンシングと実運用のしやすさの両立を目指している。
  • 3D空間に分布させた学習可能なワールドクエリに加えて、画像クエリとレーダークエリを用いるConFusionを提示し、クエリ初期化の改善と対象物のカバー範囲の拡大を図っている。
  • 異なる種類のクエリ間の相互作用を促すために、特徴サンプリング後に専用のクロスタイプ注意(attention)を行う異種クエリ混合(QMix)を提案して、相補的な物体情報を統合する。
  • さらに、注意と幾何学的制約を満たしつつ、関連するクエリ同士で有益な特徴トークンを交換できるインタラクティブ・クエリ・スワップ・サンプリング(QSwap)を導入し、サンプリングの質を高めている。
  • nuScenesでの実験により、ConFusionは検証セットで59.1 mAP / 65.6 NDS、テストセットで61.6 mAP / 67.9 NDSを達成し、最先端性能を報告している。

Abstract

自動運転において、カメラ・レーダ融合は補完的なセンシングと低い導入コストを提供します。既存手法では、入力の混合、特徴マップの混合、またはクエリに基づく特徴サンプリングによって融合を行っています。私たちは、異種クエリ相互作用と呼ぶ新しい融合パラダイムを提案し、カメラ・レーダの3D物体検出器であるConFusionを提示します。ConFusionは、画像クエリ、レーダクエリ、そして3D空間に分散配置された学習可能なワールドクエリを組み合わせることで、クエリの初期化と物体のカバレッジを改善します。異種クエリ間の相互作用を促すために、特徴サンプリング後に専用の異種タイプ間アテンションを実行して、補完的な物体の証拠を統合する、異種クエリ混合(QMix)を導入します。さらに、アテンションと幾何学的制約のもとで関連するクエリ同士が情報量のある特徴トークンを交換できるようにして特徴サンプリングを改善する、インタラクティブなクエリスワップサンプリング(QSwap)も提案します。nuScenesデータセットでの実験により、ConFusionは最先端の性能を達成し、検証セットで59.1 mAPおよび65.6 NDS、テストセットで61.6 mAPおよび67.9 NDSをそれぞれ得ています。