学習不要な動画異常検知のための幾何学的情報を考慮したセマンティック推論

arXiv cs.CV / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • MM-VAD は、幾何学を意識した学習不要の動画異常検知フレームワークを導入し、異常推論を固定特徴量マッチングではなく適応的なテスト時推論として扱います。
  • キャプション由来のシーン表現を双曲空間へ射影して階層構造をより適切に保存し、凍結された大規模言語モデル上で適応的な質問応答プロセスを介して異常評価を行います。テスト時の学習可能なプロンプトは、教師なしの信頼度スパース性目的関数によって最適化されます。
  • 共分散を考慮したマハラノビス・リファインメントを組み込み、バックボーンのパラメータを固定したままクロスモーダルの整合性を安定化させます。
  • 実証的には、MM-VAD は XD-Violence、UCF-Crime、ShanghaiTech、UCSD Ped2 のデータセットで高い成果を達成し、従来の学習不要手法を上回ります。

要旨:トレーニング不要のビデオ異常検知(VAD)は、監督付きアプローチのスケーラブルな代替として最近登場しましたが、既存の手法は主に静的なプロンプトと幾何学を前提としない特徴融合に依存しています。結果として、異常推定はしばしばユークリッド埋め込み空間上の浅い類似性マッチングへと還元され、不安定な予測と解釈性の低下を招き、特に複雑または階層的に構造化されたシーンでは顕著です。私たちはMM-VADを導入します。幾何学を意識したセマンティック推論フレームワークで、トレーニング不要のVADに対して、異常検知を固定の特徴比較ではなく適応的なテスト時推論として再定義します。提案手法は、キャプション由来のシーン表現を双曲空間に射影して階層構造をより良く保持し、凍結された大規模言語モデル上で適応的な質問応答プロセスを介して異常評価を行います。軽量で学習可能なプロンプトを、教師なしの信頼性・スパース性を目的とした目的関数を用いてテスト時に最適化し、バックボーンのパラメータを更新することなく文脈特異的なキャリブレーションを可能にします。視覚的証拠に意味的予測をさらに根拠づけるため、共分散を考慮したマハラノビス再評価を組み込み、モーダル間のアライメントを安定化させます。4つのベンチマークにおいて、MM-VADは従来の訓練不要法を一貫して上回り、XD-Violenceで90.03%のAUC、UCF-Crime、ShanghaiTech、UCSD Ped2ではそれぞれ83.24%、96.95%、98.81%を達成します。私たちの結果は、幾何学を意識した表現と適応的なセマンティックキャリブレーションが、訓練不要のVADにおける静的なユークリッドマッチングに対する原理的で有効な代替手段を提供することを示しています。