弱いペア不確実性を活用したテキストベースの人物探索

arXiv cs.CV / 2026/4/13

💬 オピニオン

要点

  • 本論文は、画像とテキストの複数モダリティにまたがって自然言語による記述から目標の人物を検索することで、テキストベースの人物探索を扱う。

Abstract

本論文では、自然言語による記述を通じて関心対象の人物を取得する、テキストベースの人物探索(text-based person search)を扱います。既存の手法は一般に、視覚モダリティとテキストモダリティの間の厳密な一対一対応のペアマッチング、たとえばコントラスト学習に焦点を当てています。しかし、このようなパラダイムは意図せず、同一人物であるにもかかわらずテキスト記述が異なる視点(カメラ)から注釈付けされた「弱い正例(weak positive)」である画像—テキストペアを軽視してしまいます。弱い正例を最大限に活用するために、画像—テキストペアの不確実性を明示的に推定する不確実性認識(uncertainty-aware)手法を提案し、さらに不確実性を最適化手順に滑らかな形で組み込みます。具体的には、本手法は2つのモジュールから構成されます:不確実性推定と不確実性正則化です。 (1) 不確実性推定は、与えられた正例ペアに対する相対的な信頼度を得ることです;(2) 予測された不確実性に基づいて、損失の重みを適応的に調整するための不確実性正則化を提案します。加えて、弱いペア間における表現空間をさらに促進するために、グループ単位の画像—テキストマッチング損失も導入します。既存手法と比べて、本提案手法は、潜在的に弱い正例候補をモデルが押し離してしまうことを明示的に防ぎます。CUHK-PEDES、RSTPReid、ICFG-PEDESの3つの広く用いられているデータセットに対する大規模な実験により、本手法が既存の競合手法に対してそれぞれ+3.06%、+3.55%、+6.94%のmAP向上を達成することを検証します。