推論ガイド付き・グラウンディング：マルチモーダル大規模言語モデルによる映像異常検知の高度化

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、映像異常検知（VAD）において異常の分類だけでなく、空間的なグラウンディングとチェーン・オブ・ソート（推論）を同時に扱うVANGUARDというマルチモーダルLLM/VLMの枠組みを提案します。
3段階のカリキュラム（固定バックボーンでの分類ウォームアップ、LoRAによる空間グラウンディング学習、チェーン・オブ・ソート生成）により、単一段階の最適化より段階的学習が有効であることを示しています。
ラベルが疎なVADベンチマークの課題に対し、教師-生徒型の注釈パイプラインを構築し、Qwen3-VL-4BがUCA Datasetの手動注釈情報をもとにサブクリップごとの構造化推論軌跡を生成します。
GroundingDINOがバウンディングボックスの監督信号を提供し、UCF-CrimeではROC-AUC 94%、F1 84%を達成し、これまでの手法にない解釈可能な推論と空間的に整合した異常の局在化を実現しています。
アブレーションとゼロショット移転（XD-Violence、ShanghaiTech）から、構造化推論が暗黙の正則化として働き、ターゲット領域の適応なしに領域を越えた汎化を可能にすることが示唆されます。

要旨: ビデオ異常検出（VAD）は従来、二値分類または外れ値検出として扱われてきましたが、その結果として、異常事象に対する解釈可能な推論や、正確な空間的ローカライズが得られませんでした。Vision-Language Models（VLM）は豊かなシーン理解を提供しますが、空間的な根拠付け（spatial grounding）を信頼性高く行うことが難しく、物体の位置特定を求めると、しばしば幻覚的、または幾何学的に不正なバウンディングボックスを生成してしまいます。我々は、異常の分類、空間的ローカライズ、そしてチェイン・オブ・ソート推論（chain-of-thought reasoning）を単一のVLMの中で統合する枠組みであるVANGUARD（Video Anomaly Understanding through Reasoning and Grounding）を提案します。VANGUARDは、学習目的を段階的に積み重ねる3段階のカリキュラムを導入します：（1）フローズンされたバックボーン特徴に対する分類器のウォームアップ、（2）LoRA適用による空間的ローカライズ、（3）チェイン・オブ・ソートの生成です。VADベンチマークに典型的なスパースなアノテーションに対処するために、教師-生徒（teacher-student）のアノテーションパイプラインを用い、VLM（Qwen3-VL-4B）が、UCA Datasetで利用可能な手動アノテーションに基づいて、サブクリップごとの構造化された推論トラジェクトリを生成します。さらに、GroundingDINOがバウンディングボックスの監督信号（supervision）を提供します。UCF-Crimeにおいて、VANGUARDは 84% F1 とともに 94% の ROC-AUC を達成し、同時に、解釈可能なチェイン・オブ・ソートの説明と、異常物体の空間的ローカライズを生成します。これらの能力は、従来のVAD手法には存在しません。アブレーションにより、段階的学習が単一の（モノリシックな）最適化を上回り、また構造化された推論が暗黙の正則化として働き、分類のみでの微調整よりもバランスの取れた予測を導くことが確認されます。XD-ViolenceおよびShanghaiTechへのゼロショット転移では、対象ドメインへの適応（target-domain adaptation）なしに、ドメインをまたいだ一般化が示されます。