学習不要な動画異常検知のための幾何学的情報を考慮したセマンティック推論

arXiv cs.CV / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MM-VAD は、幾何学を意識した学習不要の動画異常検知フレームワークを導入し、異常推論を固定特徴量マッチングではなく適応的なテスト時推論として扱います。
キャプション由来のシーン表現を双曲空間へ射影して階層構造をより適切に保存し、凍結された大規模言語モデル上で適応的な質問応答プロセスを介して異常評価を行います。テスト時の学習可能なプロンプトは、教師なしの信頼度スパース性目的関数によって最適化されます。
共分散を考慮したマハラノビス・リファインメントを組み込み、バックボーンのパラメータを固定したままクロスモーダルの整合性を安定化させます。
実証的には、MM-VAD は XD-Violence、UCF-Crime、ShanghaiTech、UCSD Ped2 のデータセットで高い成果を達成し、従来の学習不要手法を上回ります。

要旨：トレーニング不要のビデオ異常検知（VAD）は、監督付きアプローチのスケーラブルな代替として最近登場しましたが、既存の手法は主に静的なプロンプトと幾何学を前提としない特徴融合に依存しています。結果として、異常推定はしばしばユークリッド埋め込み空間上の浅い類似性マッチングへと還元され、不安定な予測と解釈性の低下を招き、特に複雑または階層的に構造化されたシーンでは顕著です。私たちはMM-VADを導入します。幾何学を意識したセマンティック推論フレームワークで、トレーニング不要のVADに対して、異常検知を固定の特徴比較ではなく適応的なテスト時推論として再定義します。提案手法は、キャプション由来のシーン表現を双曲空間に射影して階層構造をより良く保持し、凍結された大規模言語モデル上で適応的な質問応答プロセスを介して異常評価を行います。軽量で学習可能なプロンプトを、教師なしの信頼性・スパース性を目的とした目的関数を用いてテスト時に最適化し、バックボーンのパラメータを更新することなく文脈特異的なキャリブレーションを可能にします。視覚的証拠に意味的予測をさらに根拠づけるため、共分散を考慮したマハラノビス再評価を組み込み、モーダル間のアライメントを安定化させます。4つのベンチマークにおいて、MM-VADは従来の訓練不要法を一貫して上回り、XD-Violenceで90.03%のAUC、UCF-Crime、ShanghaiTech、UCSD Ped2ではそれぞれ83.24%、96.95%、98.81%を達成します。私たちの結果は、幾何学を意識した表現と適応的なセマンティックキャリブレーションが、訓練不要のVADにおける静的なユークリッドマッチングに対する原理的で有効な代替手段を提供することを示しています。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

学習不要な動画異常検知のための幾何学的情報を考慮したセマンティック推論

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer