ESOM: オープンワールドの動的定義でストリーミング動画異常を効率的に理解する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、リアルタイム用途(監視やライブのモデレーションなど)を対象に、動的な異常定義とストリーミング動画設定をサポートする、訓練不要の効率的なオープンワールド動画異常検出モデル「ESOM」を提案する。
  • ESOMは、定義正規化(Definition Normalization)モジュールにより幻覚(ハルシネーション)を抑え、インターフレームで一致させたイントラフレーム・トークンマージ(Inter-frame-matched Intra-frame Token Merging)により冗長な視覚トークンを圧縮し、ハイブリッド・ストリーミング・メモリ(Hybrid Streaming Memory)によって効率的な因果推論を実現する。
  • さらに、区間(インターバル)レベルのテキスト出力を確率的スコアリング(Probabilistic Scoring)モジュールでフレームレベルの異常スコアへ変換し、時間的な位置特定(テンポラルローカリゼーション)と評価の整合性を向上させる。
  • 本研究では、新しいベンチマーク「OpenDef-Bench」を導入する。クリーンな監視動画と、条件の違いに対する頑健性を検証するための多様な自然な異常定義を特徴としている。
  • 実験結果では、単一GPUでのリアルタイム効率と、異常の時間的な位置特定・分類・記述生成において最先端の性能を報告しており、コードとベンチマークはリリース予定である。

要旨: オープンワールド・ビデオ異常検出(OWVAD)は、異常の定義が異なる状況下で異常な事象を検出し、それを説明することを目的とする。これは、知能監視やライブ配信コンテンツのモデレーションといった応用において重要である。近年、MLLM(マルチモーダル大規模言語モデル)ベースの手法がオープンワールドな一般化に関して有望な結果を示しているが、それでもなお、主に3つの重大な制約がある。実運用に向けた効率の不足、ストリーミング処理への適応の欠如、さらに、モデリングと評価の両方における動的な異常定義への限定的な対応である。これらの課題に対処するため、本論文では、学習不要(training-free)で動作する効率的なストリーミングOWVADモデルであるESOMを提案する。ESOMは、幻覚を低減するためにユーザープロンプトを構造化する「定義正規化(Definition Normalization)モジュール」、冗長な視覚トークンを圧縮する「フレーム間で一致し、フレーム内で統合する(Inter-frame-matched Intra-frame Token Merging)モジュール」、効率的な因果推論のための「ハイブリッド・ストリーミングメモリ(Hybrid Streaming Memory)モジュール」、および「確率的スコアリング(Probabilistic Scoring)モジュール」を含み、これにより区間レベルのテキスト出力をフレームレベルの異常スコアへ変換する。さらに本論文では、監視映像がクリーンであり、かつ多様な自然な異常定義を備えた新しいベンチマーク「OpenDef-Bench」を導入し、条件の変化のもとでの性能を評価する。大規模な実験の結果、ESOMは単一GPU上でリアルタイム効率を達成し、異常の時間的ローカライゼーション、分類、説明生成において最先端の性能を示す。コードとベンチマークは https://github.com/Kamino666/ESOM_OpenDef-Bench で公開予定である。