ポーズと意味のギャップを埋める：テキストによる人物異常検索のためのカスケードフレームワーク

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は監視アーカイブから自然言語クエリで特定の行動イベントを検索する「テキストによる人物異常検索」を扱い、ポーズ対応手法でも根本的なポーズ・セマンティックギャップ（意味的に異なる行動でも骨格形状が似る問題）が残る点を指摘しています。
マルチモーダルLLMは曖昧さを下げられる可能性がある一方、大規模検索では計算コストが高すぎるため現実的ではないと論じています。
提案するStructure-Semantic Decoupled Cascade（SSDC）では、検索を2段階に分割します（骨格の類似度で候補を素早く絞る構造に基づく粗い検索、続いてマルチエージェントによる意味検証）。
「Detective Squad」の各役割は、検出者（候補を二値で高速フィルタ）、分析者（証拠抽出）、ライター（意味の統合・合成）で構成され、合成キャプションと構造的事前情報を融合して最終的に再ランキングします。
PABベンチマークでの実験では、効率と意味推論の両立により最先端性能（state-of-the-art）を達成したと報告されています。

Abstract

テキストベースの人物異常検索は、自然言語クエリを用いて監視アーカイブから特定の行動イベントを取得する。最近の姿勢対応（pose-aware）手法は幾何学的構造をよく整合させるものの、根本的な課題であるPose-Semantic Gap（姿勢・意味ギャップ）に直面している。すなわち、意味的に異なる行動でも、類似した骨格幾何を共有しうるのである。マルチモーダル大規模言語モデル（MLLM）を用いればこの曖昧さを低減できるが、大規模な検索にそれを適用することは計算コストの面で現実的ではない。そこで我々は、2段階に検索を分解するStructure-Semantic Decoupled Cascade（SSDC）フレームワークを提案する：(1) 構造に配慮した粗い検索（Structure-Aware Coarse Retrieval）。軽量モデルが骨格の類似性に基づいて素早く候補を絞り込む；および (2) Detective Squad Interaction（デテクティブ・スクワッドによる相互作用）。これはマルチエージェントの意味検証モジュールである。このスクワッドは、速い二値フィルタリングを行うDetective、証拠抽出を行うAnalyst、意味的統合を行うWriterから構成される。最後に、合成したキャプションと構造的事前知識を融合することで、候補の再ランキングを行う。PABベンチマークでの実験により、SSDCは効率と意味推論の両立によって最先端の性能を達成することが示された。