VADMamba++：グレースケール空間におけるハイブリッドモデリングによる効率的な動画異常検知

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、VADMamba++という新しい動画異常検知手法を提案し、光フローへの依存を排除して、フレーム単位の入力のみで単一の代理タスクを対象とする。
単一チャネルから三チャネルへの再構成写像を学習することで、Gray-to-RGBパラダイムを適用し、構造的な幾何情報と推定された色彩的手がかりの不整合から異常を検出できるようにする。
本手法は、Mamba・CNN・Transformerモジュールを組み合わせたハイブリッドバックボーンを用いて多様な通常パターンをモデル化しつつ、異常の出現を抑制する。
明示的な将来フレーム予測誤差と、暗黙的な量子化された特徴誤差を融合する、タスク内融合スコアリング戦略により精度を向上させる。
3つのベンチマークデータセットでの実験により、VADMamba++は既存の最先端手法を上回る性能を示し、特に厳密な単一タスク設定下でも高い効率性を維持する。

要旨: VADMambaは、Mambaをビデオ異常検出（VAD）に導入することを先駆けて行い、ハイブリッドな代理タスクにより高い精度と高速推論を実現しました。とはいえ、補助入力として光フローに大きく依存し、タスク間の融合スコアリングに制約があるため、その適用は単一の代理タスクに限られてしまいます。本論文では、Gray-to-RGBパラダイムに基づく効率的なVAD手法であるVADMamba++を提案します。この手法は、単一チャネルから三チャネルへの再構成マッピングを強制し、単一の代理タスクに設計されており、補助入力なしで動作します。このパラダイムにより、グレースケールの構造から色の見え（appearance）を推論することが求められます。その結果、構造と色の手がかりの間に存在する二重の不整合によって、異常がより効果的に顕在化します。具体的には、VADMamba++はグレースケールフレームをRGB空間へ再構成することで、構造の幾何と色の忠実度を同時に識別し、それによって明示的な視覚異常への感度を高めます。さらに、Mamba、CNN、Transformerモジュールを統合するハイブリッドなモデリング・バックボーンを設計し、多様な正常パターンを捉えつつ、異常の見えを抑制します。加えて、タスク内融合スコアリング戦略では、明示的な将来フレーム予測誤差と、暗黙的な量子化された特徴誤差を統合し、単一タスク設定のもとで精度をさらに向上させます。3つのベンチマークデータセットに対する大規模な実験により、VADMamba++は最先端手法を上回り、特にフレームレベル入力のみの厳密な単一タスク設定において、性能と効率の両方を満たすことが示されます。