DinoRADE：視覚基盤モデル特徴を用いたフルスペクトル・レーダー-カメラ融合による悪天候下での多クラス物体検出

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

DinoRADEは、密なFMCWレーダーテンソルとカメラ視覚特徴を融合することで、悪天候下における物体検出の頑健性を高めることを目的とした、レーダー中心のマルチモーダル知覚パイプラインである。
本手法は、カメラ変換した基準点の周囲に視覚特徴を集約し、変形クロスアテンションを用いることで、小さな脆弱な道路利用者（VRU）を検出するのに必要な微細な空間的詳細をより良く復元する。
視覚入力はDINOv3の視覚基盤モデルから得ており、特徴抽出を行った後、レーダー特徴と融合して多クラス検出を実現する。
著者らは、すべての天候条件にわたってK-Radarデータセットで評価を行い、5つの物体クラスごとの性能を報告し、従来のレーダー-カメラ手法に比べて12.1%の改善を達成した。
コードはRADE-Netリポジトリの下で公開されており、再現性と、安全性が重要な運転向け知覚におけるレーダー-カメラ融合に関するさらなる研究を支援する。

Abstract

信頼性が高く、天候に頑健な知覚システムは、安全な自動運転に不可欠であり、通常は包括的な環境認識を実現するためにマルチモーダルなセンサ構成を採用します。近年の自動車FMCWレーダーに基づく手法は、悪天候下での検出タスクにおいて目覚ましい性能を達成しましたが、小型で脆弱な道路利用者（VRU）を検出するために特に重要な、微細な空間詳細を解像する点では限界がありました。さらに、既存の研究では、K-Radarのような悪天候データセットにおけるVRU検出が十分に扱われていません。私たちは、密なレーダーテンソルを処理し、変換された基準点をカメラ視点で取り巻くように視覚特徴を集約する、変形可能なクロスアテンションを用いた、レーダー中心の検出パイプラインであるDinoRADEを提案します。視覚特徴はDINOv3のビジョン基盤モデルによって提供されます。私たちは、あらゆる天候条件におけるK-Radarデータセットでの包括的な性能評価を示し、さらに5つの物体クラスそれぞれについて、検出性能を個別に報告した最初期の一つであることを示します。加えて、既存の単一クラス検出アプローチと比較し、最近のレーダー・カメラ手法に対して12.1%上回ります。コードは https://github.com/chr-is-tof/RADE-Net で公開されています。