ACCIDENT: A Benchmark Dataset for Vehicle Accident Detection from Traffic Surveillance Videos

arXiv cs.CV / 4/14/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • ACCIDENTは、CCTVの交通監視映像から交通事故を検出するためのベンチマークデータセットで、教師あり(IID/OOD)およびゼロショット設定を想定しています。
  • 実データ2,027本と合成データ2,211本の計4,238本のクリップを用意し、事故の発生時刻・空間位置・衝突の高レベル種別をアノテーションしています。
  • タスクは(1)事故の時間位置推定、(2)空間位置推定、(3)衝突タイプ分類の3つで、CCTV特有の不確実性と曖昧さを考慮した独自メトリクスで評価します。
  • ヘウリスティック、モーション重視、視覚言語(vision-language)など多様なベースラインも提供され、難易度が高いベンチマークであることが示されています。

Abstract

We introduce ACCIDENT, a benchmark dataset for traffic accident detection in CCTV footage, designed to evaluate models in supervised (IID and OOD) and zero-shot settings, reflecting both data-rich and data-scarce scenarios. The benchmark consists of a curated set of 2,027 real and 2,211 synthetic clips annotated with the accident time, spatial location, and high-level collision type. We define three core tasks: (i) temporal localization of the accident, (ii) its spatial localization, and (iii) collision type classification. Each task is evaluated using custom metrics that account for the uncertainty and ambiguity inherent in CCTV footage. In addition to the benchmark, we provide a diverse set of baselines, including heuristic, motion-aware, and vision-language approaches, and show that ACCIDENT is challenging. You can access the ACCIDENT at: https://accidentbench.github.io