現実的なV2X欠陥に頑健な、オブジェクトレベルV2Xの学習型3D物体検出へのロバスト融合

arXiv cs.CV / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、自動運転におけるオンボード単独の知覚の限界に対し、オブジェクトレベルのV2Xメッセージを3D物体検出で補完する方法を扱います。
nuScenesデータセットを用い、地上の真値からオブジェクトレベルV2XメッセージをBEV入力へ変換しつつ、遅延・位置ずれ・ノイズ・オブジェクト欠落などの現実的な欠陥を注入して再現します。
BEVFusion型の検出器にV2Xを融合すると、条件が良い場合には検出が大きく改善し（NDS 0.80）、理想化データで学習したモデルはV2Xへの依存が強くなって脆くなることも示されます。
著者らは、ノイズを考慮した学習と明示的な信頼度（confidence）エンコーディングを提案し、厳しいV2Xの劣化や普及率低下の下でも性能向上を維持する頑健性を高めます。

Abstract

自動運転のための知覚は、主としてカメラやレーダーなどの車載環境センサーに基づいています。これらは費用対効果が高い一方で、視線および視野の制約によって限界があります。こうした内在する制約により、車載知覚は遮蔽や視界不良の条件下で失敗する可能性があります。並行して、車両間通信（V2X）による協調的な認識が、ますます利用可能になってきており、車両とインフラが、自らの状態をオブジェクトレベルの情報として共有することで、車載知覚を補完できるようになっています。本研究では、このようなV2X情報を3Dオブジェクト検出に統合する方法と、得られたシステムが現実的なV2Xの不完全性に対してどれほど頑健であるかを検討します。nuScenesデータセットを用いて、地上真値からオブジェクトレベルの協調認識メッセージをエミュレートし、遅延、ローカライゼーション誤差、ならびに低いV2X普及率といった現実の状況を模倣するために、制御されたノイズやオブジェクトのドロップアウトを投入します。これらのメッセージを専用の俯瞰視点（BEV）入力へと変換し、BEVFusionスタイルの検出器に融合します。その結果、オブジェクトレベルの協調情報は検出性能を大幅に向上させ得る一方で、好条件下ではNDS 0.80を達成するものの、理想化されたデータで訓練したモデルは脆くなり、V2Xに過度に依存してしまうことが示されます。これに対して、提案するノイズを考慮した学習戦略と、明示的な信頼度エンコーディングを組み合わせることで、深刻なノイズやV2X普及率の低下下でも性能向上を維持し、頑健性が高まります。