監視カメラ映像における稀な交通事故イベントの二段階ゼロショット時空間グラウンディング

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ラベル付き事故動画での学習がしばしば禁止される一方で、事故の衝突タイプを含む時刻・位置の同時特定(t, x, y, c)精度が求められる「稀なイベントのグラウンディング」問題に取り組む。
  • 手法は、2段階のゼロショット・パイプラインであり、まず1 fpsで全動画を粗く走査して(t, x, y, c)を推定し、その後±3秒の範囲内を5 fpsで精密化することで時間と位置を改善する。
  • 精密化では境界付近の不確実性に対する決定的な信頼度ゲートを用い、必要に応じて粗い推定へフォールバックする設計になっている。
  • 処理は固定のVLMを用いた役割分担で、Qwen3-VL-Plusがグラウンディングを担当し、Gemini 3.1 Flash-Liteが中心切り出しクリップで衝突タイプ(typing)を担当する。
  • ACCIDENT@CVPR 2026(実CCTV動画2,027本)でACC^S=0.539を達成し、ベンチマーク最良のオラクル(0.412)、最強の単一VLM(Molmo-7B, 0.396)、素朴なベースライン(0.289)を上回ると報告している。

要旨: 実際のCCTV映像に交通事故をグラウンディングすることは、ラベル付き事故動画での訓練がしばしば禁止される希少事象問題でありながら、時刻・空間・衝突タイプにまたがる正確な同時ローカリゼーションが必要です。私たちは、微調整なしのパイプラインを提案します。凍結した視覚言語モデルから、このような共同出力(joint output)を2つの発想によって引き出します。第一に、粗いものから細かいものへ進む2段階の分解です。1 fpsで全動画を処理して粗い(t, x, y, c)タプルを生成し、次に±3秒のウィンドウ内で5 fpsの2回目の処理を行って、時刻と位置を精緻化します。境界の揺らぎ(boundary hedges)やエッジでクランプされた座標(edge-clamped coordinates)では粗い推定へ戻す、2つの決定論的な信頼度ゲートを用意します。第二に、専門家の役割割り当てです。Qwen3-VL-Plusはグラウンディングを担当し、Gemini 3.1 Flash-Liteは中央揃えの動画クリップに対するタイプ付け(typing)を担当します。ACCIDENT@CVPR 2026ベンチマーク(2,027本の実CCTV動画)において、ACC^S = 0.539(95% CI [0.525, 0.553])を達成します。これは、ベンチマーク論文の最良のベースライン・オラクル(0.412)に対して+0.127、最も強力な単一VLMベースライン(Molmo-7B, 0.396)に対して+0.143、単純なベースライン(0.289)に対して+0.250です。VLMパスでは、1動画あたり最大3回のAPI呼び出しを使用し(API失敗時には17%フォールバックで物理に切り替えます)、完全実行のコストは約$20です。