要約: 自車視点のダッシュカム映像の急速な増加は、衝突やニア・コリジョンといった安全上重要なイベントの検出に大きな課題をもたらします。これらのシナリオは短く、まれで、汎用の視覚モデルが捉えるのが難しいです。マルチモーダル大規模言語モデル(MLLM)は強力な一般推論能力を示しますが、ドメインと時間的なずれのため自動運転文脈では性能が低下します。
私たちはVLM-AutoDriveを紹介します。事前学習済みのVision-Language Models(VLMs)を高忠実度の異常検知へ適応させるモジュラーなポストトレーニングフレームワークです。フレームワークは、メタデータ由来のキャプション、LLM生成の説明、視覚質問応答(VQA)ペア、および思考過程(CoT)推論の監視を統合し、ドメイン適合型で解釈可能な学習を実現します。NVIDIAのCosmos-Reason1 7B(CR1)などの市販VLMは、ゼロショット設定で衝突の再現率がほぼゼロに近いことを示します。VLM-AutoDriveでのファインチューニングは、衝突のF1を0.00から0.69へ、全体の精度を35.35%から77.27%へ改善します。
VLM-AutoDriveは、一般用途のVLMを安全性が高く時間的に局在化した知覚タスクへ適応させるためのスケーラブルなレシピを提供します。実世界のNexarダッシュカム動画で評価すると、衝突およびニア・コリジョン検出の大きな向上を達成する一方で、解釈可能な推論の痕跡を生成し、知覚、因果関係、意思決定推論の自動運転におけるギャップを橋渡しします。
VLM-AutoDrive: 安全性が極めて重要な自動運転イベントのための事後訓練ビジョン・言語モデル
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、VLM-AutoDriveを紹介する。これは、安全性が極めて重要な自動運転イベントにおける高精度な異常検知へ、事前学習済みのビジョン-言語モデルを適応させるモジュール式の事後訓練フレームワークである。
- 本手法は、メタデータ由来のキャプション、LLM生成の説明、VQAペア、および思考過程に基づく監督を用いて、ドメインに整合し、解釈可能な学習を実現する。
- 実データのNexarダッシュカム映像上で、VLM-AutoDriveを用いたファインチューニングにより、衝突F1スコアを0.00から0.69へ、全体の正解率を35.35%から77.27%へ向上させた。
- このアプローチは、解釈可能な推論の痕跡を備えつつ、知覚、因果推論、意思決定を自動運転に橋渡しする、スケーラブルなレシピを提供する。)