ポーズと意味のギャップを埋める:テキストによる人物異常検索のためのカスケードフレームワーク
arXiv cs.CV / 2026/4/28
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は監視アーカイブから自然言語クエリで特定の行動イベントを検索する「テキストによる人物異常検索」を扱い、ポーズ対応手法でも根本的なポーズ・セマンティックギャップ(意味的に異なる行動でも骨格形状が似る問題)が残る点を指摘しています。
- マルチモーダルLLMは曖昧さを下げられる可能性がある一方、大規模検索では計算コストが高すぎるため現実的ではないと論じています。
- 提案するStructure-Semantic Decoupled Cascade(SSDC)では、検索を2段階に分割します(骨格の類似度で候補を素早く絞る構造に基づく粗い検索、続いてマルチエージェントによる意味検証)。
- 「Detective Squad」の各役割は、検出者(候補を二値で高速フィルタ)、分析者(証拠抽出)、ライター(意味の統合・合成)で構成され、合成キャプションと構造的事前情報を融合して最終的に再ランキングします。
- PABベンチマークでの実験では、効率と意味推論の両立により最先端性能(state-of-the-art)を達成したと報告されています。




