歩行者を超えて:高難度な動画ベース人物再識別のためのキャプション誘導CLIPフレームワーク

arXiv cs.CV / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高難度な条件(例:スポーツやダンス)下における動画ベース人物再識別(ReID)の弱点に取り組む。具体的には、同様の衣服を着た複数の人物がカメラ間で動的に移動する状況である。
  • 提案手法CG-CLIPは、マルチモーダルLLMにより生成されるテキスト記述を用いるキャプション誘導CLIPフレームワークであり、Caption-guided Memory Refinement(CMR)によってアイデンティティに特化した特徴を洗練する。
  • CG-CLIPはさらに、固定長の学習可能トークンを用いたクロスアテンションによって時空間特徴を効率的に集約するToken-based Feature Extraction(TFE)を導入し、計算量を削減する。
  • 標準データセット(MARS、iLIDS-VID)および新たに提案する2つの高難度データセット(SportsVReID、DanceVReID)で実験を行い、複数のベンチマークにおいて最先端手法より性能が向上することを示す。
  • キャプションによる誘導と、トークン化した時空間集約を組み合わせることで、典型的な歩行者映像を超えたReIDシナリオに対する頑健性を高めることを目指す。

要旨: 近年、ビデオベースの人物再識別(ReID)は、重なりのないカメラ間で個人を照合するために時空間的手がかりを活用できる点から注目を集めています。しかし、現在の手法は、高い難度を持つシナリオ、たとえばスポーツやダンスのパフォーマンスのように、複数の個人が同様の服装をしながら動的な動作を行う場面では苦戦しています。これらの課題を克服するために、本研究では、明示的なテキスト記述と学習可能なトークンを活用する、キャプション誘導型CLIPの新しい枠組みであるCG-CLIPを提案します。本手法は、2つの主要コンポーネントを導入します。すなわち、キャプション誘導型メモリ洗練(CMR)と、トークンベース特徴抽出(TFE)です。CMRはマルチモーダル大規模言語モデル(MLLM)によって生成されたキャプションを用いて、識別対象に固有の特徴を洗練し、細かな詳細を捉えます。TFEは、固定長の学習可能トークンとクロスアテンション機構を用いて時空間特徴を効率的に集約し、計算オーバーヘッドを低減します。提案手法を2つの標準データセット(MARSおよびiLIDS-VID)と、2つの新たに構築した高難度データセット(SportsVReIDおよびDanceVReID)で評価します。実験結果は、本手法が現在の最先端アプローチを上回り、すべてのベンチマークにおいて顕著な改善を達成することを示しています。