生涯学習型人物再識別のための視覚-言語属性の分離と強化

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VLADRはクロスドメイン知識伝達を改善しつつ忘却を抑制することを目的とした、新しい視覚-言語モデル(VLM)主導の生涯学習型人物再識別手法である。
  • 画像中のグローバルなテキスト属性と多様な局所テキスト属性を掘り出す多粒度テキスト属性分離機構を導入し、より細粒度なクロスモーダル学習のための属性抽出を実現する。
  • 異なるドメイン間で属性を整合させ、視覚属性の抽出と知識伝達を導くドメイン間クロモーダル属性強化スキームを提案する。
  • 実験の結果、VLADRは最先端手法を忘却抑制で約1.9-2.2%、一般化で約2.1-2.5%上回ることを示し、コードは https://github.com/zhoujiahuan1991/CVPR2026-VLADR に公開されている。

概要: 生涯的人物再識別(LReID)は、さまざまなドメインから学習して、統一された人物検索モデルを得ることを目指します。既存の LReID アプローチは通常、ゼロから学習するか、視覚分類に基づく事前学習モデルから学習することに焦点を当てます。一方、Vision-Language Model (VLM) は、さまざまなタスクで汎用的な知識を示しています。既存の手法は直接 VLM に適用可能ですが、グローバル情報に依存した学習しか考慮しないため、細かな属性知識が十分活用されず、獲得能力と忘却防止能力が制限されます。この問題に対処するため、VLM 主導の LReID アプローチである Vision-Language Attribute Disentanglement and Reinforcement (VLADR) を提案します。我々の主要なアイデアは、普遍的に共有される人間の属性を明示的にモデル化して、ドメイン間の知識移転を改善し、歴史的な知識を効果的に活用して新しい知識の学習を強化し、忘却を緩和することです。具体的には、VLADR には、画像のグローバルな属性と多様な局所的テキスト属性を抽出する「マルチグレイン テキスト属性分離機構」が含まれます。その後、ドメイン間クロスモーダル属性強化スキームを開発し、視覚属性抽出を導くためにクロスモーダル属性アラインメントを導入し、ドメイン間属性アラインメントを採用して、細粒度の知識移転を実現します。実験結果は、私たちの VLADR が最先端手法を、忘却防止能力と一般化能力の両方で、それぞれ 1.9%-2.2% および 2.1%-2.5% 上回ることを示しています。ソースコードは https://github.com/zhoujiahuan1991/CVPR2026-VLADR で公開されています。