概要: 視覚言語モデル(VLM)の台頭により、自動運転(VLM4AD)への応用が大きな注目を集めています。 一方、自動運転においては、クローズドループ評価が、オープンループ評価よりも信頼性の高い検証手法として広く認識されています。クローズドループ評価では、累積誤差や分布外入力の下でモデルの性能を評価できるためです。 しかし、既存のVLM4ADベンチマークは、オープンループ、すなわち静的な質問応答(QA)データセットを介して、モデルのシーン理解能力を評価しています。 この種の評価は、人が収集したデータセットには稀にしか現れない、分布外状態におけるVLMの性能を評価できません。
そこで本研究では、CARLAにおけるあらゆる運転状況に対して、厳しいルート逸脱やオフロード逸脱など、これまでシミュレーションでは評価できなかった状態も含めて、多様で行動に根ざした質問応答ペアを自動生成するクローズドループ生成器である(1)DriveCommenterを導入します。さらに、(2)最新のVLMをBench2Driveのクローズドループ環境に直接接続して、従来のエージェントと比較できる統一プロトコルとインターフェース。 (3)複数形式の視覚入力と、設定可能なグラフベースの思考(chain-of-thought)実行を支える柔軟な推論および制御フレームワーク。 (4)完全な開発エコシステム。 これらの構成要素により、VLM4ADのための包括的なクローズドループ・ベンチマークが構築されます。 すべてのコードと注釈付きデータセットをオープンソース化しています。
Bench2Drive-VL:ビジョン・ランゲージ・モデルによる閉ループ自律運転のためのベンチマーク
arXiv cs.RO / 2026/4/3
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ビジョン・ランゲージ・モデルに基づく自律運転に対して閉ループ評価をもたらすベンチマークスイート「Bench2Drive-VL」を提案し、既存のオープンループQAベンチマークの限界に対処する。
- 「DriveCommenter」を提案し、CARLAの全ての運転状況にわたって、多様で行動に根ざした質問—回答ペアを自動生成する。これには、進路逸脱や路外逸脱といった稀で厳しい分布外イベントも含まれる。
- 本研究は、最新のVLMをBench2Driveの閉ループ環境に直接組み込むための統一プロトコルおよびインタフェースを提供し、従来の運転エージェントとの公平な比較を可能にする。
- 複数形式の視覚入力を扱い、グラフに基づくチェーン・オブ・ソートの実行を設定可能にする、柔軟な推論および制御フレームワークを含む。
- 著者らは、再現とさらなる研究を可能にするため、オープンソースのコードと注釈付きデータセットを備えたエンドツーエンドの開発エコシステムを公開する。




