AITP:マルチモーダル大規模言語モデルによる交通事故の責任分担推定

arXiv cs.LG / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文では、事故動画の検出や説明にとどまらず、交通事故の責任分担推定(TARA)を目的としたマルチモーダル大規模言語モデル「AITP(Artificial Intelligence Traffic Police)」を提案している。
  • AITPは、Multimodal Chain-of-Thought(MCoT)による多段の因果・推論と、Retrieval-Augmented Generation(RAG)による交通規則の統合によって、法規に根ざした推論能力を高めている。
  • 併せて、10個の関連する交通事故推論タスクを統合したデカスロン形式のベンチマーク「DecaTARA」を提示しており、67,941本の注釈付き動画と195,821件のQAペアを含む。
  • 実験では、責任分担推定に加えて、交通事故検出(TAD)および交通事故理解(TAU)でも最先端の性能が報告され、「推論駆動型のマルチモーダル交通分析」への新たな方向性を示している。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、交通事故検出(TAD)および交通事故理解(TAU)において目覚ましい進展を遂げている。だが、既存の研究は主に事故動画の記述や解釈に焦点を当てており、より深い因果推論や法的知識の統合の余地が残されている。交通事故責任配分(TARA)は、交通規則に基づく多段階の推論を必要とする、より困難な課題である。これに対処するため、責任推論と配分のためのマルチモーダル大規模言語モデルであるAITP(Artificial Intelligence Traffic Police)を提案する。AITPは、マルチモーダル連鎖思考(MCoT)メカニズムによって推論を強化し、検索拡張生成(RAG)により法的知識を統合する。さらに本研究では、10個の相互に関連する交通事故推論タスクを統一するデカスロン形式のベンチマークであるDecaTARAを提示する。67,941本の注釈付き動画と、195,821の質問—回答ペアから構成される。大規模な実験の結果、AITPは責任配分、TAD、TAUの各タスクにおいて最先端の性能を達成し、推論駆動のマルチモーダル交通分析に対する新たなパラダイムを確立することを示した。