概要: 協調自動運転では、車両側とインフラ側の両方の観点から交通シーンを理解することが必要です。ビジョン・ランゲージ・モデル(VLM)は強力な汎用的推論能力を示しますが、既存のベンチマークがエゴ車両に焦点を当てているため、安全性が極めて重要な交通シナリオにおける性能は十分に評価されていません。このギャップを埋めるために、実世界の路側カメラデータを用いた道路のクラッシュ理解のための大規模ビジョン・ランゲージ・ベンチマークである extbf{CrashSight} を提案します。データセットは250本のクラッシュ動画から構成され、2段階の階層構造のもとで13K件の複数選択式の質問—回答ペアが注釈付けされています。第1層は、シーンの文脈と関係当事者に対する視覚的なグラウンディングを評価し、第2層は、クラッシュのメカニズム、因果的帰属、時間的進行、そしてクラッシュ後の結果を含む、より高次の推論を探ります。8つの最先端VLMをベンチマークし、シーン記述能力が高いにもかかわらず、安全性が極めて重要なシナリオにおいて現在のモデルは時間的・因果的推論に苦戦することを示します。失敗シナリオの詳細な分析を提供し、VLMによるクラッシュ理解を改善するための方向性について議論します。このベンチマークは、協調自動運転におけるインフラ支援型知覚のための標準化された評価フレームワークを提供します。CrashSightベンチマーク(完全なデータセットとコードを含む)は、https://mcgrche.github.io/crashsight で利用可能です。
CrashSight:交通事故現場の理解と推論のための、フェーズ対応かつインフラ中心のビデオベンチマーク
arXiv cs.RO / 2026/4/10
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- CrashSightは、新しい視覚言語ベンチマークであり、エゴ車両中心のデータではなく実世界の路側カメラ映像を用いて、モデルが交通事故の現場をどれだけよく理解できるかを評価します。
- データセットには、250本の事故動画と、2階層のタクソノミに整理された13K件の多肢選択式QAペアが含まれます。Tier 1は視覚的グラウンディング(シーン文脈と当事者)をテストし、Tier 2は事故メカニズム、因果的帰属、時間的進行、事故後の結果といったより高次の推論をテストします。
- 最先端のVLMを8モデルベンチマークした結果、シーンの描写は可能である一方で、安全性が重要な事故シナリオにおける時間的・因果的推論でしばしば性能が不足することが示されます。
- この研究では、失敗の分析を行い、協調型自動運転におけるインフラ支援型知覚のためのVLMによる事故理解を改善する方向性について議論します。
- ベンチマークデータセット全体とコードは、標準化された評価およびさらなる研究のために、プロジェクトのWebサイトで公開されます。




