視覚言語モデルは連続的な運転シーンをどれほど理解しているのか?感度分析

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、入力構成を変えながら、視覚言語モデル(VLM)が連続的な運転シーンをどのように扱うかを体系的に検証する枠組み「VENUSS」を提案する。
  • 既存の運転動画データセットから抽出した時間的シーケンスを用いて、VENUSSは構造化されたカテゴリ設定のもと、2,600超のシナリオに対して25以上のVLMを評価する。
  • 結果として、上位のVLMでも同様の制約下での精度は57%にとどまり、人間の65%に比べて大きな能力ギャップがあることが明らかになる。
  • 本研究では、VLMは静的な物体検出ではより良い性能を示す一方で、車両のダイナミクスや運転における時間的関係のモデリングでは性能が低いことが分かる。
  • VENUSSは、画像解像度、フレーム数、時間間隔、空間レイアウト、入力の提示モードといった提示要因に対する感度を特に分析し、今後の研究のためのベースラインを提供する。

Abstract

自動運転タスクに対して、視覚言語モデル(VLMs)がますます提案されている一方で、連続(逐次)運転シーンにおける性能はいまだ十分に特徴づけられておらず、特に入力の構成がモデルの能力にどのように影響するかについては不明確です。私たちは、VENUSS(VLM Evaluation oN Understanding Sequential Scenes)を導入します。これは、連続運転シーンにおけるVLM性能の系統的な感度分析のための枠組みであり、将来の研究のためのベースラインを確立します。既存のデータセットに基づき、VENUSSは運転動画から時間的な系列を抽出し、カスタムのカテゴリにわたって構造化された評価を生成します。2,600件以上のシナリオで25以上の既存VLMを比較することで、最上位モデルでさえ同様の制約下では人間の性能(65%)に達せず、精度は57%にとどまること、そして大きな能力ギャップが明らかになることを示します。分析の結果、VLMは静的な物体検出では得意である一方で、車両のダイナミクスや時間的関係の理解では苦手であることが分かりました。VENUSSは、入力画像の構成――解像度、フレーム数、時間間隔、空間レイアウト、提示モード――が連続運転シーンにおける性能にどう影響するかに焦点を当てた、VLMに対する最初の系統的な感度分析を提供します。補足資料は https://V3NU55.github.io で入手可能です