フレームからイベントへ:ヒューマン中心のビデオ異常検知における評価の見直し

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ポーズベースのビデオ異常検知における従来のフレーム単位の評価が、現実世界での利用実態を誤って表していると主張する。現場では、単発のフレームではなく、時間を通じて首尾一貫した異常イベントを検出して報告することが求められる。
  • 論文では、いくつかの主要なVADベンチマークを監査し、異常が時間的にどのような構造をもつのかを特徴づけ、そのことからイベント中心の評価観点を動機づける。
  • 著者らは、時間的なイベント局在化のための2つのアプローチを提案する。1つはスコアを洗練するパイプライン(階層的ガウス平滑化+適応的二値化)、もう1つはイベント単位の検出を出力するエンドツーエンドのデュアルブランチモデルである。
  • tIoUに基づくマッチングとマルチしきい値F1を適応することで、イベントベースの評価基準を導入し、フレーム単位とイベント単位の性能に大きな乖離があることを示す。
  • NWPUCにおいてフレーム単位のAUC-ROCは52%超という最先端の水準であるにもかかわらず、最小tIoU=0.2でのイベント局在化の精度は10%未満と報告されている。さらに、平均イベント単位F1は0.11であり、本研究ではコードも公開されている。

Abstract

姿勢(pose)ベースのビデオ異常検出(VAD)は、そのプライバシー保護性と環境変動への頑健性から、大きな注目を集めてきました。しかし、従来のフレーム単位の評価ではビデオを孤立したフレームの集合として扱っており、本質的に、異常が実世界でどのように現れ、どのように対処されるかと整合していません。運用上の監視システムにおいて重要なのは、個々のフレームをフラグ付けすることではなく、識別可能な開始時刻と継続時間を持つ連続的な時間的エピソードである、首尾一貫した異常事象の信頼性ある検出・位置特定・報告です。フレーム単位の指標はこの区別に鈍感であり、その結果、イベントレベルのアラートという実行可能な警報を必要とするいかなる導入においても、モデルの性能を体系的に過大評価してしまいます。本研究では、VADにおける事象中心(event-centric)的な視点への転換を提案します。まず、SHT[19]、CHAD[6]、NWPUC[4]、HuVAD[25] を含む広く使われているVADベンチマークを監査し、それらの事象構造を特徴づけます。次に、時間的事象の位置特定のための2つの戦略として、階層的ガウス平滑化と適応的二値化を用いるスコア洗練(score-refinement)パイプライン、ならびに事象レベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルを導入します。最後に、tIoUベースの事象マッチングやマルチ閾値F1評価を含む、Temporal Action Localization の指標に適応することで、VADに対する初の事象ベース評価基準を確立します。実験結果は、大きな性能差を定量化します。すべてのSoTAモデルが NWPUC[4] においてフレーム単位のAUC-ROCを52%以上達成している一方で、最小の tIoU=0.2 でさえ事象レベルの位置特定精度は10%未満にとどまり、全閾値にわたる平均の事象レベルF1はわずか0.11でした。本研究のコードベースは https://github.com/TeCSAR-UNCC/EventCentric-VAD で公開されています。