V2X-QA:自動運転におけるマルチモーダル大規模言語モデルのための、エゴ視点・インフラ視点・協調視点にまたがる包括的推論データセットとベンチマーク
arXiv cs.RO / 2026/4/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、自動運転のための実世界ベースのマルチモーダル大規模言語モデル(MLLM)データセットおよびベンチマークであるV2X-QAを紹介し、エゴ中心シナリオだけでなく、車両側・インフラ側・協調の各視点においてモデルを評価する。
- V2X-QAは、視点を切り離した評価プロトコルと、統一された多肢選択式質問応答(MCQA)フレームワークを用いることで、車両のみ・インフラのみ・協調走行という条件下で制御された比較を可能にする。
- ベンチマークは、知覚・予測・推論・計画をカバーする12のタスク分類(タクソノミー)に整理されており、専門家が検証したMCQA注釈により、視点依存の強みと弱みをきめ細かく診断できるよう設計されている。
- 最先端モデル10種に対する実験の結果、視点情報へのアクセスが性能に大きく影響することが示され、インフラ側の推論は巨視的な交通理解を改善する一方で、協調推論は、ビュー間の整合(アライメント)と証拠の統合が必要となるため難しいことが分かった。
- これらの課題に対処するため、著者らはV2X-MoEという、ベンチマークに整合したベースラインを提案し、明示的な視点ルーティングと視点別のLoRAエキスパートを備えること、そして視点の専門化がマルチビュー推論性能を改善することを確認した。



