AI Navigate

GT-Space: Ground Truth特徴空間による異種協調知覚の強化

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • GT-Spaceは、異なるエージェントの特徴を協調知覚のために整合させる共通のグラウンドトゥルース特徴空間を作成する柔軟なフレームワークを提案する。
  • この設計は、各エージェントが共有スペースへ特徴を射影するための単一のアダプターを使用できるようにし、他のエージェントとのコストの高いペアワイズ相互作用を不要にする。
  • 多様なモダリティを跨ぐコントラスト損失で訓練された融合ネットワークは、シミュレーションデータセット(OPV2VおよびV2XSet)と実世界データセット(RCooper)での検出精度を向上させる。
  • 本研究は異質性のスケーラブルな扱いを主張し、ベースラインに対する経験的な改善を報告しており、GitHubでコードが公開される予定である。
  • 特徴整合を特定のセンサ/モデルアーキテクチャから切り離すことにより、GT-Spaceは協調知覚システムにおける異種エージェントの統合を簡素化することを目指す。

Abstract

In autonomous driving, multi-agent collaborative perception enhances sensing capabilities by enabling agents to share perceptual data. A key challenge lies in handling {\em heterogeneous} features from agents equipped with different sensing modalities or model architectures, which complicates data fusion. Existing approaches often require retraining encoders or designing interpreter modules for pairwise feature alignment, but these solutions are not scalable in practice. To address this, we propose {\em GT-Space}, a flexible and scalable collaborative perception framework for heterogeneous agents. GT-Space constructs a common feature space from ground-truth labels, providing a unified reference for feature alignment. With this shared space, agents only need a single adapter module to project their features, eliminating the need for pairwise interactions with other agents. Furthermore, we design a fusion network trained with contrastive losses across diverse modality combinations. Extensive experiments on simulation datasets (OPV2V and V2XSet) and a real-world dataset (RCooper) demonstrate that GT-Space consistently outperforms baselines in detection accuracy while delivering robust performance. Our code will be released at https://github.com/KingScar/GT-Space.