DriveXQA: 不利な運転シーン理解のためのクロスモーダル視覚質問応答

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

DriveXQA は、4 つの視覚モダリティ、5 つのセンサー故障ケース、および 5 つの天候条件を備え、グローバルレベル、外部座標系レベル、および自車中心レベルの全体で総計 102,505 の QA ペアを含む新しいマルチモーダル自動運転 VQA データセットを導入します。
本研究は、複数のセンサモダリティを統合して不利な運転シーンを理解するための Multimodal Large Language Models の活用におけるギャップを埋めるものです。
著者らは、モダリティを融合し情報の冗長性を低減するトークン効率の高いアーキテクチャ MVX-LLM と、Dual Cross-Attention プロジェクターを提案します。霧のような難条件下での性能向上を示しています（GPTScore: 53.5 対ベースライン 25.1）。
データセットとソースコードは公開される予定で、自動運転のクロスモーダル知覚におけるさらなる研究とベンチマーク作成を可能にします。

補完的なモダリティを組み合わせたセンサーの統合は、不利な運転シーンを安定して理解するために重要です。しかし、Multimodal Large Language Models (MLLMs) は、自動運転車における複数センサ情報を活用して不利な運転シナリオを理解するには十分に検討されていません。このギャップに対応するため、DriveXQA という自動運転 VQA のマルチモーダルデータセットを提案します。4つの視覚モダリティに加え、5つのセンサ故障ケース、5つの天候条件を含み、グローバルシーンレベル、外部座標系レベル、そして自車中心レベルの3タイプに分類された102,505 のQAペアを含みます。既存のMLLMフレームワークは複数の補完的視覚モダリティを入力として採用していないため、モダリティを融合して情報の冗長性を軽減する Dual Cross-Attention（DCA）プロジェクターを備えたトークン効率の高いアーキテクチャ MVX-LLM を設計しました。実験の結果、DCA は霧がかかったような厳しい条件下で性能を向上させることを示しています（GPTScore: 53.5 対ベースライン 25.1）。確立されたデータセットとソースコードは公開される予定です。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

DriveXQA: 不利な運転シーン理解のためのクロスモーダル視覚質問応答

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer