フレームからイベントへ:ヒューマン中心のビデオ異常検知における評価の見直し
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ポーズベースのビデオ異常検知における従来のフレーム単位の評価が、現実世界での利用実態を誤って表していると主張する。現場では、単発のフレームではなく、時間を通じて首尾一貫した異常イベントを検出して報告することが求められる。
- 論文では、いくつかの主要なVADベンチマークを監査し、異常が時間的にどのような構造をもつのかを特徴づけ、そのことからイベント中心の評価観点を動機づける。
- 著者らは、時間的なイベント局在化のための2つのアプローチを提案する。1つはスコアを洗練するパイプライン(階層的ガウス平滑化+適応的二値化)、もう1つはイベント単位の検出を出力するエンドツーエンドのデュアルブランチモデルである。
- tIoUに基づくマッチングとマルチしきい値F1を適応することで、イベントベースの評価基準を導入し、フレーム単位とイベント単位の性能に大きな乖離があることを示す。
- NWPUCにおいてフレーム単位のAUC-ROCは52%超という最先端の水準であるにもかかわらず、最小tIoU=0.2でのイベント局在化の精度は10%未満と報告されている。さらに、平均イベント単位F1は0.11であり、本研究ではコードも公開されている。




