InterPartAbility:テキストによる部品マッチングで実現する、解釈可能な人物再識別

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストで人物画像を検索する人物再識別(TI-ReID)において、マッチング精度は高い一方で、説明が意味的な概念に確実に結び付いていないという解釈可能性の課題を扱っています。
  • InterPartAbilityを提案し、部品ごとの明示的マッチングとフレーズ—領域のグラウンディングにより、視覚的根拠を意味のあるテキスト部分へより正確に結び付けます。
  • パッチ—フレーズ相互作用モジュール(PPIM)では、オープンボキャブラリかつ軽量な概念レベルの教師信号を用いて、各部品フレーズに対応する画像領域へモデルが注意を向けるようガイドします。
  • さらに、CLIP ViTの自己注意を制約して、部品レベルのフレーズに整合するよう空間的に集中したパッチ活性を生成し、よりグラウンディングされた説明マップを可能にします。
  • 変化(摂動)に基づく定量的解釈可能性評価プロトコルを新たに導入し、上位の説明領域を除去したときの検索劣化を測る反実仮想的領域マスキングなどを用いて、CUHK-PEDESとICFG-PEDESで解釈可能性SOTAを報告しつつ検索精度は競争的に維持しています。

概要: テキストから画像への人物再識別(TI-ReID)は、自然言語のテキスト記述に依存して、大規模な画像ギャラリーから最上位の一致人物を検索します。近年の大規模視覚言語モデル(VLM)は強力な検索性能を達成していますが、その判断は概ね解釈不能なままです。TI-ReIDにおける既存の解釈可能性アプローチは、スロット注意(slot-attention)だけに基づいて注目領域を強調するものの、視覚領域を意味的に有意な概念へ確実に結び付けることに失敗しており、説明が限定された語彙に対する定性的な視覚化にとどまってしまいます。本論文では、明示的なパートごとのマッチングを行い、フレーズ-領域のグラウンディングを可能にする、解釈可能なTI-ReID手法であるInterPartAbilityを提案します。新しいオープンボキャブラリの軽量な監督(lightweight supervision)と、パッチ-フレーズ相互作用モジュール(PPIM)を提案し、概念レベルのガイダンスによって標準的なTI-ReIDモデルを訓練します。概念に基づくパートのフレーズは、モデルが対応する画像領域に注目することを促す根拠を提供します。さらにInterPartAbilityは、各パートレベルのフレーズに整合するように、空間的に集中したパッチ活性を生成するために、CLIP ViTの自己注意を制約し、グラウンディングされた説明マップを得ます。TI-ReIDに対する定量的な解釈可能性プロトコルを導入します。これは、摂動(perturbation)に基づく評価指標を適応することで実現し、上位の説明領域を除去したときの検索劣化を測定する反事実的(counterfactual)領域マスキングなどを含みます。CUHK-PEDESやICFG-PEDESといった難易度の高いベンチマークにおける実証結果ootnote{当社のコードは補足資料に含まれており、公開されます。}は、これらの指標においてInterPartAbilityが最先端(SOTA)の解釈可能性性能を達成しつつ、同等の検索精度も維持していることを示しています。

InterPartAbility:テキストによる部品マッチングで実現する、解釈可能な人物再識別 | AI Navigate