AI Navigate

ゼロショット物体計数のための定量性と空間認識の強化

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • ゼロショット物体計数(ZSOC)は、視覚的な実例を必要とせず、テキスト記述で指定された任意のカテゴリの物体を列挙することを目的としています。
  • 本論文は、数量知覚と堅牢な空間特徴統合を組み合わせて、細粒度のカウントと空間認識を強化するフレームワーク「QICA」を提案します。
  • 数値条件付きプロンプトを用いて視覚と言語エンコーダを適応させ、意味認識と数値推論を結びつける相乗的プロンプティング戦略(SPS)を導入します。
  • コスト集約デコーダ(CAD)は、視覚-テキスト類似マップ上で動作し、空間的集約を通じてそれらを洗練させ、特徴の歪みを緩和し、ゼロショット転移性を維持します。
  • 多レベルの数量整合損失(L_MQA)を導入し、パイプライン全体で数値的一貫性を強制します。FSC-147データセットおよびCARPKとShanghaiTech-Aでのゼロショット評価により、強力な一般化を示します。

概要: Zero-shot object counting (ZSOC) は、視覚的な実例を必要とせず、テキスト説明で指定された任意のカテゴリの物体を列挙することを目的とします。
しかし、既存の手法はしばしばカウントを粗い検索タスクとみなすため、微細な数量の認識が不足しています。
また、特徴空間の歪みによって空間的な感度が欠如し、モデル適応時の一般化が低下することがよくあります。
これらの課題に対処するために、\textbf{QICA}、\underline{q}uantity percept\underline{i}onと堅牢な空間\underline{c}ast \underline{a}ggregationを統合した新しいフレームワークを提示します。
具体的には、視覚エンコーダと言語エンコーダを数値的に条件付けられたプロンプトを通じて適応させる協働型プロンプティング戦略 (\textbf{SPS}) を導入し、意味認識と定量的推論の間のギャップを埋めます。
特徴の歪みを緩和するために、視覚-テキスト類似性マップ上で直接動作するコスト集約デコーダ (\textbf{CAD}) を提案します。
これらのマップを空間的集約によって洗練させることで、CAD は過学習を防ぎ、ゼロショット転移性を維持します。
また、全体のパイプラインにおける数値的一貫性を強制するために、多段階の数量整合損失 (\mathcal{L}_{MQA}) を用います。
FSC-147 における広範な実験は競争力のある性能を示し、CARPK と ShanghaiTech-A でのゼロショット評価は未見ドメインへの優れた一般化を検証します。