A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video

arXiv cs.CV / 4/14/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical UsageModels & Research

Key Points

  • 提案手法は、ACCIDENT @ CVPR 2026向けに「事故がいつ起きたか(時間)」「どこで起きたか(位置)」「どのタイプか(分類)」を、ラベル付き実データなしで推定するゼロショット・パイプラインとして構成されている。
  • パイプラインは3モジュールに分離され、(1)正規化したフレーム差分のピーク検出で衝突時刻を特定し、(2)Farneback光学フローの密度を積算して重み付き重心で影響位置を推定し、(3)事故種別はCLIP画像埋め込みとカテゴリを表すマルチプロンプトのテキスト埋め込みのコサイン類似度で分類する。
  • 特定ドメインへの微調整を行わず、事前学習済み重みのみを用いて各動画を処理する点が特徴である。
  • 実装はKaggleノートブックとして公開されており、検証・再現が容易な形で提供されている。

Abstract

We describe a zero-shot pipeline developed for the ACCIDENT @ CVPR 2026 challenge. The challenge requires predicting when, where, and what type of traffic accident occurs in surveillance video, without labeled real-world training data. Our method separates the problem into three independent modules. The first module localizes the collision in time by running peak detection on z-score normalized frame-difference signals. The second module finds the impact location by computing the weighted centroid of cumulative dense optical flow magnitude maps using the Farneback algorithm. The third module classifies collision type by measuring cosine similarity between CLIP image embeddings of frames near the detected peak and text embeddings built from multi-prompt natural language descriptions of each collision category. No domain-specific fine-tuning is involved; the pipeline processes each video using only pre-trained model weights. Our implementation is publicly available as a Kaggle notebook.