教師なしビデオに基づく可視—赤外人物再識別のための時系列プロトタイピングと階層的アラインメント

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、監視における実用性の観点から、主に画像レベルや教師あり設定に偏っている既存手法に対し、教師なしのビデオベース可視—赤外（VI-ReID）を扱います。
HiTPro（Hierarchical Temporal Prototyping）という、プロトタイプ駆動型でありつつハードな擬似ラベル割り当てを明示的に行わない枠組みを提案します。
HiTProは、時間を考慮した特徴エンコーダにより、識別に有効なフレームレベル特徴と、頑健なトラックレットレベル表現の両方を生成します。
階層的アラインメントでは、動的しきい値戦略とソフト重み付けにより、まず同一モダリティ間の関連付けから始め、次にモダリティ横断のマッチングへと段階的に正例マイニングを行います。
HITSZ-VCMおよびBUPTCampusでの実験により、HiTProが完全教師なし設定で最先端性能を達成し、今後の研究の強力なベースラインを提示したことが示されています。

Abstract

可視赤外線人物再識別（VI-ReID）は、終日監視におけるモダリティをまたいだ同一人物の照合を可能にしますが、既存手法は主に画像レベルに焦点を当てるか、コストの高い人物のアノテーションに大きく依存しています。近年、動画ベースのVI-ReIDが時系列ダイナミクスを活用して頑健性を高めるために登場しましたが、既存研究は依然として教師あり設定に限られています。重要なのは、RGBと赤外のトラックレットから、人物ラベルなしで学習しなければならない教師なし動画VI-ReID問題が、実運用上の実用的重要性にもかかわらず、ほとんど未検討のままであることです。このギャップを埋めるために、我々はHiTPro（Hierarchical Temporal Prototyping）を提案します。これは、教師なし動画ベースのVI-ReIDにおいて、明示的なハードな擬似ラベル割り当てを行わない、プロトタイプ駆動型のフレームワークです。HiTProは、まず効率的なTemporal-aware Feature Encoderから始め、識別力のあるフレームレベル特徴を抽出し、その後それらを頑健なトラックレットレベル表現へ集約します。これらの特徴に基づいて、HiTProは、時間的に分割されたサブトラックレットから特徴を集約することで、Intra-Camera Tracklet Prototypingによりまず信頼できるカメラ内プロトタイプを構築します。次に、Hierarchical Cross-Prototype Alignmentにより、2段階のポジティブマイニングを行います。すなわち、Dynamic Threshold StrategyとSoft Weight Assignmentによって強化しながら、モダリティ内の関連付けからモダリティ間の照合へと段階的に進めます。最後に、{Hierarchical Contrastive Learning}によって、特徴とプロトタイプのアラインメントを3つのレベルで段階的に最適化します。具体的には、カメラ内の識別、カメラ間の同一モダリティ整合性、そしてモダリティ間の不変性です。HITSZ-VCMおよびBUPTCampusに対する大規模な実験により、HiTProが完全に教師なしの設定で最先端の性能を達成し、適応されたベースラインを大幅に上回ることが示されます。また、将来研究のための強力なベースラインも確立します。