因果ブートストラップ整合による教師なし・動画ベース可視-赤外人物再識別

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、全天候の監視を想定した教師なしの可視–赤外人物再識別(VVI-ReID)を、ラベルなしの動画トラックレットから学習することで実現しようとし、教師あり手法で必要となる高コストなクロスモダリティ注釈を回避することを目的としています。
  • 画像ベースの教師なしVI-ReIDをそのまま動画設定に拡張し、汎用の事前学習エンコーダを用いるだけでは、アイデンティティ識別力の弱さとモダリティバイアスの強さによって性能が低下することを示しています。
  • これらの課題に対して提案するCausal Bootstrapped Alignment(CBA)では、Causal Intervention Warm-up(CIW)により、モダリティや動きが生む見かけ上の相関を抑えつつ、アイデンティティに関わる意味は保持するように設計しています。
  • さらにPrototype-Guided Uncertainty Refinement(PGUR)として、可視と赤外のクラスター粒度の不一致を扱うために、信頼できる可視プロトタイプを不確実性を考慮した監督とともにガイドしながら、粗いから細かいへと進めるクロスモダリティ整合を行います。
  • HITSZ-VCMおよびBUPTCampusでの実験では、CBAが教師なし動画VVI-ReID設定に拡張した場合に、既存の教師なしVI-ReID手法を大きく上回ることが示されています。

Abstract

VVI-ReIDは、終日の監視を可能にする重要な手法であり、時間情報が静止画像だけでは得られない追加の手がかりを提供します。しかし、既存のアプローチは高価なモダリティ間注釈を必要とする完全教師あり学習に強く依存しているため、スケーラビリティが制限されます。そこで本研究では、ラベルなしのビデオ・トラックレットから直接同一性を識別する表現を学習する、VVI-ReIDのための教師なし学習(Unsupervised Learning for VVI-ReID: USL-VVI-ReID)を調査します。この設定に対して、汎用的な事前学習済みエンコーダを用いて画像ベースのUSL-VI-ReID手法をそのまま拡張すると、性能が不十分になります。そのようなエンコーダは、同一性識別力が弱いことと、モダリティバイアスが強いことに起因して、同一モダリティ内での同一性の混同が深刻化し、可視と赤外のモダリティ間でクラスタリング粒度の不均衡が顕著になります。これらの問題は、擬似ラベルの信頼性を同時に低下させ、効果的なクロスモダリティ間整合を妨げます。これらの課題に対処するために、固有のビデオ優先(ビデオの事前知識)を明示的に活用する因果ブートストラップ整合(Causal Bootstrapped Alignment: CBA)フレームワークを提案します。まず、Causal Intervention Warm-up(CIW)を導入します。これは、時間的同一性の一貫性とモダリティ間同一性の一貫性を利用して、モダリティや動きに起因する見かけの相関を抑制しつつ、同一性に関連する意味は保持することで、系列レベルの因果介入を行い、教師なしクラスタリングのためのよりクリーンな表現を得ます。次に、Prototype-Guided Uncertainty Refinement(PGUR)を提案します。これは、粗視度から微視度へという整合戦略を用いて、モダリティ間の粒度不一致を解消します。信頼できる可視プロトタイプと、不確実性を考慮した監督のもとで、過少クラスタリングされている赤外表現を再編し、その信頼性を高めます。HITSZ-VCMおよびBUPTCampusのベンチマークに関する大規模な実験により、CBAはUSL-VVI-ReID設定へ拡張した場合において、既存のUSL-VI-ReID手法を大幅に上回ることが示されています。