AI Navigate

ModTrack: センサ非依存のマルチビュー追跡を実現する、アイデンティティ情報を取り入れたPHDフィルタリングと共分散伝搬

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ModTrackは、検出と特徴抽出の段階に学習を限定し、融合、対応付け、および追跡を閉形式の解析的方法で維持する、モジュール式 MV-MOT パイプラインを提案します。
  • 本手法は、各センサーの出力を校正済みの位置-共分散ペアに変換し、精度重み付け融合を用いたクロスビュークラスタリングを適用して、アイデンティティ割当と不確かさを定量化した時系列追跡の統一推定を生成します。
  • 本手法は、フィードバック結合型でアイデンティティ情報を組み込んだ GM-PHD フィルタを、HMMモーションモードと組み合わせて用い、検出欠落や重い遮蔽下でもアイデンティティを頑健に維持します。
  • ModTrackは WildTrack において 95.5 IDF1、91.4 MOTA を達成し、従来のモジュール式手法を21ポイント以上上回り、エンドツーエンド手法に近づく性能を示すとともに、知覚モジュールの置換を通じて MultiviewX および RadarScenes への転用性を持ちます。

要旨: Multi-View Multi-Object Tracking (MV-MOT) は、複数のセンサーによって観測された物体の同一性を局在化し、一貫性を維持することを目指します。ビューの変化や遮蔽は、ビュー間および時間を通じて同一性の一貫性を崩すため、このタスクは困難です。最近のエンドツーエンドのアプローチは、2D Bird's Eye View (BEV) 表現と同一性アソシエーションを共同で学習することにより高い追跡精度を達成します。しかし、これらの手法は原理的な不確実性の評価を提供せず、トレーニング設定に強く結びついたままで、再訓練なしにはセンサ配置、モダリティ、データセット間の一般化を制限します。我々は ModTrack を提案します。モジュラー MV-MOT システムで、エンドツーエンドの性能と同等を保ちつつ、クロスモーダルでセンサに依存しない一般化と追跡可能な不確実性を提供します。ModTrack は MV-MOT パイプラインの学習を、\textit{Detection and Feature Extraction} ステージのみに限定し、すべての融合、アソシエーション、追跡を閉形式の解析法を用いて行います。私たちの設計は各センサの出力を、キャリブレーション済みの位置共分散対 (\mathbf{z}, R) に還元します;ビュー間クラスタリングと精度加重の融合により、同一性割り当てと時系列追跡のための統一推定値 (\hat{\mathbf{z}}, \hat{R}) を得ます。フィードバック結合型の、同一性情報を取り込んだ Gaussian Mixture Probability Hypothesis Density (GM-PHD) フィルタは、HMM モーションモードを備え、これらの融合推定値を見逃し検出や重い遮蔽の下で同一性を維持します。ModTrack は \textit{WildTrack} で 95.5 IDF1 と 91.4 MOTA を達成し、これまでのすべてのモジュール手法を 21 ポイント以上上回り、エンドツーエンドの最先端手法と肩を並べる一方で、それらには実現できない展開の柔軟性を提供します。具体的には、同じトラッカーコアは \textit{MultiviewX} および \textit{RadarScenes} へ、ドメインやセンサモダリティを新しく拡張するには知覚モジュールの置換のみが必要です。