グローバルからローカルへ:人物再識別におけるCLIP特徴集約の再考
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 既存のCLIPベース人物再識別(ReID)では、しばしば空間的な選択性よりも画像—テキスト整合を最適化したグローバルな[CLS]特徴集約が用いられ、遮蔽やカメラ間変動で表現が脆くなる。
- 本論文はSAGA-ReIDを提案し、CLIPのテキスト埋め込み空間上でパラメータ化したアンカーベクトルに中間パッチトークンを整合させることで、個々の画像のテキスト記述なしでアイデンティティ表現を再構築する。
- 実験では、合成マスキング(アイデンティティ信号が欠如)と現実的な人の撹乱(重なりによる意味的な混乱)の2つの状況で集約メカニズムを切り分け、遮蔽が増えるほどSAGAの優位性が両条件で拡大することを示す。
- ベンチマーク評価では、SAGA-ReIDがCLIP-ReIDに対して一貫した改善を示し、特にグローバル集約が最も不安定になる遮蔽ベンチマークで最大+10.6 Rank-1の向上が得られる。
- さらに、より強いバックボーンでもSAGAの構造化された再構築が逐次パッチ集約を上回り、ボトルネックがバックボーン品質や複雑なアーキテクチャだけでは解決できない「集約」側にあることを示唆する。




