概要: クラッシュダイアグラムは交通安全分析において不可欠なツールですが、その作成を手作業で行うことは時間がかかり、さらに人のばらつきによる影響も受けやすいままです。本研究では、警察の事故報告書からクラッシュダイアグラムを自動生成するために、視覚言語モデル(Vision-Language Models; VLMs)を用いることを検討し、難しいテストケースとして複数車線のラウンドアバウトに焦点を当てます。モデルの推論を、解釈・抽出・視覚的統合の3つの段階を通じて導くための、3部構成のプロンプトフレームワークを開発し、ダイアグラムの品質を、意味的正確さ・空間的整合性・視覚的明瞭さの観点から評価するための10指標の評価システムを設計しました。GPT-4o、Gemini-1.5-Flash、Janus-4oの3つの代表的モデルを、79件の事故報告書でテストしました。GPT-4oは平均性能で最も高い結果(10点満点中6.29)を達成し、次いでGemini-1.5-Flash(5.28)、Janus-4o(3.64)でした。分析の結果、GPT-4oは空間推論において優れており、抽出された事故データと視覚化された結果との整合性が高いことが明らかになりました。これらの結果は、工学的可視化タスクにおけるVLMの可能性と、現時点での限界の両方を示しています。本研究は、クラッシュ分析のワークフローに生成AIを統合して、効率性、一貫性、解釈可能性を向上させるための基盤を築くものです。
ビジョン・ランゲージモデルによるクラッシュ図の自動生成:多車線ラウンドアバウトのケーススタディ
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本研究は、警察の交通事故報告書からクラッシュ図を自動生成するためにVision-Language Models(VLM)を用いることを検討し、多車線ラウンドアバウトを難度の高い検証ケースとして扱います。
- 解釈、抽出、視覚合成の3段階からなる構造化プロンプト枠組みを提案し、意味的正確性、空間的整合、視認性の観点を含む10項目の評価基準も設計しています。
- 79件の事故報告書でGPT-4o、Gemini-1.5-Flash、Janus-4oを比較したところ、GPT-4oが平均スコア6.29/10で最も高い性能を示し、他のモデルを上回りました。
- 抽出した事故情報と生成された可視化の間の整合には空間推論の強さが寄与することが示される一方、工学的可視化タスクにおけるVLMの現状の限界も明らかになっています。
- 著者らは、この研究が交通安全分析の業務フローに生成AIを統合するための基盤になり、効率性、一貫性、解釈可能性の向上につながると述べています。



