視覚的手がかりを超えて:セマンティック駆動のトークンフィルタリングとエキスパートルーティングによるいつでも人物ReID

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、RGB/IR間の大きなモダリティシフトや大幅な衣服変化に対応する「いつでも人物再識別(AT-ReID)」向けに、STFER(Semantic-driven Token Filtering and Expert Routing)を提案する。
  • STFERは、大規模なビジョン・言語モデル(LVLM)を用いて、アイデンティティの一貫性を表す意味テキストを生成し、衣服差やモダリティ差に頑健な識別特徴を得る。
  • この意味テキストは2つの仕組みに活用される:SVTF(Semantic-driven Visual Token Filtering)で情報量の多い視覚領域を強調し背景ノイズを抑制し、SER(Semantic-driven Expert Routing)でマルチシナリオのゲーティングをより頑健にする。
  • AT-USTCデータセットでの実験により最先端(SOTA)性能が示され、さらにAT-USTCで学習したモデルが5つの主要ReIDベンチマークへ高い汎化性能を示した。
  • 著者らは、コードを近日公開予定であると述べている。

Abstract

Any-Time 人物再識別(AT-ReID)では、日中・夜間といったモダリティの変化や、短期から長期まで及ぶ広範な服装変更を含む、任意の条件下で目的の人物を頑健に検索することが必要です。しかし、既存手法は純粋に視覚的特徴に大きく依存しており、環境や時間要因によって特徴が変化しやすいため、照明によるモダリティ変化や衣類変更を伴うシナリオでは性能が大幅に低下します。本論文では、大規模ビジョン・言語モデル(LVLM)がアイデンティティの一貫性を表すテキストを生成できる能力を活用し、服装の変化とRGBとIR間のクロスモダリティ変化の両方に頑健な、識別力のある特徴を提供する新しい枠組み Semantic-driven Token Filtering and Expert Routing(STFER)を提案します。具体的には、LVLMに対して指示を与え、セマンティック・モデルを駆動するためのバイオメトリクスの不変要素を捉える、アイデンティティに固有な意味論的テキストを生成させます。このテキストトークンはさらに Semantic-driven Visual Token Filtering(SVTF)に用いられ、情報量の多い視覚領域を強調し、冗長な背景ノイズを抑制します。一方で、テキストトークンは Semantic-driven Expert Routing(SER)にも用いられ、セマンティックテキストをエキスパートルーティングに統合することで、より頑健なマルチシナリオのゲーティングを実現します。Any-Time ReID データセット(AT-USTC)に対する大規模な実験により、本モデルが最先端の結果を達成することを示します。さらに、AT-USTCで訓練したモデルを、5つの広く使用されているReIDベンチマークにわたって評価したところ、高い競争力を持つ結果とともに優れた汎化能力が確認されました。コードは近日公開予定です。