VAGNet：グローバル特徴を用いた視覚ベースの事故予測

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、計算コストの高いオブジェクト単位の特徴ではなく、ダッシュボードカメラ映像からグローバルなシーン特徴を用いて交通事故を予測するための深層ニューラルネットワークVAGNetを提案する。
VAGNetはトランスフォーマーとグラフモジュールを組み合わせ、視覚基盤モデルであるVideoMAE-V2を活用してリアルタイムの危険予測のためのグローバル表現を抽出する。
4つのベンチマークデータセット（DAD、DoTA、DADA、Nexar）での実験により、先行手法に比べて平均適合率および平均事故までの時間が向上したことが報告されている。
本手法は計算効率が高いと主張されており、高度運転支援（ADAS）や自動運転システムへのリアルタイム展開により適している。

要旨: 交通事故は、世界中で死亡と負傷の主要因である。したがって、危険な状況を事前に予測する能力が不可欠である。自動化された事故予兆は、ドライバーへの警告や衝突回避のための操舵（マヌーバ）を通じて、適時の介入を可能にし、先進運転支援システムの重要な構成要素となる。自動運転においては、このような予測能力が、必要に応じたディフェンシブ・ドライビングの開始や人による引き継ぎといった、先回りの安全行動を支える。ダッシュカム映像を入力として用いることは費用対効果の高い解決策を提供するが、現実の走行シーンの複雑さゆえに難しい。事故予兆システムはリアルタイムで動作する必要がある。しかし現在の手法では、検出された各オブジェクトから特徴量を抽出するため、計算コストが高くなる。私たちは、明示的なオブジェクト単位の特徴量を必要とせず、交通シーンのグローバル特徴に基づいてダッシュカム映像から事故を予測する深層ニューラルネットワークVAGNetを提案する。ネットワークはトランスフォーマーとグラフモジュールで構成され、グローバル特徴抽出には視覚基盤モデルのVideoMAE-V2を用いる。4つのベンチマークデータセット（DAD、DoTA、DADA、Nexar）での実験により、提案手法は、既存手法と比べて計算効率が高いだけでなく、平均適合率と平均事故までの時間（mean time-to-accident）においてより高い事故予兆性能を示すことが分かった。