マッチングの前に考える：汎用的な人物再識別に向けた強化推論パラダイム

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文では、人物再識別（ReID）に対して、膨大な注釈データに基づく知覚ベースではなくアイデンティティに因果的な手掛かりを学習することを目指す強化推論パラダイム「ReID-R」を提案している。
ReID-Rは、推論（Chain-of-Thought）をReIDパイプラインへ組み込む2段階の手法として構成されており、(i)ラベルなしの識別的推論ウォームアップと、(ii)シーン汎化可能なデータを構築するための非自明なサンプリングを伴う効率的な強化学習が含まれる。
高品質な報酬信号を用いて、モデルがアイデンティティに関連する視覚的手掛かりに焦点を当てるよう誘導し、正確な推論と適切な応答につなげる。
複数のReIDベンチマークでの実験では、既存データ規模の約20.9%に相当する14.3Kの非自明データのみで、従来の優れた手法に対して競争力のある識別性能が示された。
推論を内在することで、精度だけでなく結果の解釈（インタプリテーション）の質も高められると主張している。

Abstract

マルチシーンの汎用性を備えた、アイデンティティ識別的な表現を学習することは、人物再識別（ReID）における重要な目的となっています。しかし、従来の主流となっている知覚ベースのパラダイムは、アイデンティティの因果的手がかりの理解よりも、大量の注釈付きデータから適合するものを識別する傾向があります。このため、表現は複数の混乱に対して脆弱になります。本研究では、ReIDパイプラインに思考の連鎖（chain-of-thought）を組み込むことで、明示的なアイデンティティ理解と推論を実現する、新しい推論駆動型パラダイムとしてReID-Rを提案します。具体的には、ReID-Rは2段階の貢献から構成されます: (i) 識別的推論のウォームアップ。モデルをCoTラベルなしの方式で学習し、アイデンティティに配慮した特徴理解を獲得する; および (ii) 効率的な強化学習。シーンに汎用化可能なデータを構築するための、単なるものではない（自明でない）サンプリングを提案する。これに基づき、ReID-Rは高品質な報酬信号を活用して、モデルがID関連の手がかりに焦点を当てるよう導き、正確な推論と適切な応答を実現します。複数のReIDベンチマークにおける大規模な実験により、ReID-Rは、既存データ規模の20.9%に相当する14.3Kの自明でないデータのみを用いても、より優れた手法と競り合うレベルのアイデンティティ識別性能を達成することが示されています。さらに、内在する推論のおかげで、ReID-Rは結果に対して高品質な解釈を提供できます。