視覚言語モデルは連続的な運転シーンをどれほど理解しているのか?感度分析
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、入力構成を変えながら、視覚言語モデル(VLM)が連続的な運転シーンをどのように扱うかを体系的に検証する枠組み「VENUSS」を提案する。
- 既存の運転動画データセットから抽出した時間的シーケンスを用いて、VENUSSは構造化されたカテゴリ設定のもと、2,600超のシナリオに対して25以上のVLMを評価する。
- 結果として、上位のVLMでも同様の制約下での精度は57%にとどまり、人間の65%に比べて大きな能力ギャップがあることが明らかになる。
- 本研究では、VLMは静的な物体検出ではより良い性能を示す一方で、車両のダイナミクスや運転における時間的関係のモデリングでは性能が低いことが分かる。
- VENUSSは、画像解像度、フレーム数、時間間隔、空間レイアウト、入力の提示モードといった提示要因に対する感度を特に分析し、今後の研究のためのベースラインを提供する。



