ESOM: オープンワールドの動的定義でストリーミング動画異常を効率的に理解する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、リアルタイム用途（監視やライブのモデレーションなど）を対象に、動的な異常定義とストリーミング動画設定をサポートする、訓練不要の効率的なオープンワールド動画異常検出モデル「ESOM」を提案する。
ESOMは、定義正規化（Definition Normalization）モジュールにより幻覚（ハルシネーション）を抑え、インターフレームで一致させたイントラフレーム・トークンマージ（Inter-frame-matched Intra-frame Token Merging）により冗長な視覚トークンを圧縮し、ハイブリッド・ストリーミング・メモリ（Hybrid Streaming Memory）によって効率的な因果推論を実現する。
さらに、区間（インターバル）レベルのテキスト出力を確率的スコアリング（Probabilistic Scoring）モジュールでフレームレベルの異常スコアへ変換し、時間的な位置特定（テンポラルローカリゼーション）と評価の整合性を向上させる。
本研究では、新しいベンチマーク「OpenDef-Bench」を導入する。クリーンな監視動画と、条件の違いに対する頑健性を検証するための多様な自然な異常定義を特徴としている。
実験結果では、単一GPUでのリアルタイム効率と、異常の時間的な位置特定・分類・記述生成において最先端の性能を報告しており、コードとベンチマークはリリース予定である。

要旨: オープンワールド・ビデオ異常検出（OWVAD）は、異常の定義が異なる状況下で異常な事象を検出し、それを説明することを目的とする。これは、知能監視やライブ配信コンテンツのモデレーションといった応用において重要である。近年、MLLM（マルチモーダル大規模言語モデル）ベースの手法がオープンワールドな一般化に関して有望な結果を示しているが、それでもなお、主に3つの重大な制約がある。実運用に向けた効率の不足、ストリーミング処理への適応の欠如、さらに、モデリングと評価の両方における動的な異常定義への限定的な対応である。これらの課題に対処するため、本論文では、学習不要（training-free）で動作する効率的なストリーミングOWVADモデルであるESOMを提案する。ESOMは、幻覚を低減するためにユーザープロンプトを構造化する「定義正規化（Definition Normalization）モジュール」、冗長な視覚トークンを圧縮する「フレーム間で一致し、フレーム内で統合する（Inter-frame-matched Intra-frame Token Merging）モジュール」、効率的な因果推論のための「ハイブリッド・ストリーミングメモリ（Hybrid Streaming Memory）モジュール」、および「確率的スコアリング（Probabilistic Scoring）モジュール」を含み、これにより区間レベルのテキスト出力をフレームレベルの異常スコアへ変換する。さらに本論文では、監視映像がクリーンであり、かつ多様な自然な異常定義を備えた新しいベンチマーク「OpenDef-Bench」を導入し、条件の変化のもとでの性能を評価する。大規模な実験の結果、ESOMは単一GPU上でリアルタイム効率を達成し、異常の時間的ローカライゼーション、分類、説明生成において最先端の性能を示す。コードとベンチマークは https://github.com/Kamino666/ESOM_OpenDef-Bench で公開予定である。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

ESOM: オープンワールドの動的定義でストリーミング動画異常を効率的に理解する

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透