DriveXQA: 不利な運転シーン理解のためのクロスモーダル視覚質問応答
arXiv cs.CV / 2026/3/13
📰 ニュースModels & Research
要点
- DriveXQA は、4 つの視覚モダリティ、5 つのセンサー故障ケース、および 5 つの天候条件を備え、グローバルレベル、外部座標系レベル、および自車中心レベルの全体で総計 102,505 の QA ペアを含む新しいマルチモーダル自動運転 VQA データセットを導入します。
- 本研究は、複数のセンサモダリティを統合して不利な運転シーンを理解するための Multimodal Large Language Models の活用におけるギャップを埋めるものです。
- 著者らは、モダリティを融合し情報の冗長性を低減するトークン効率の高いアーキテクチャ MVX-LLM と、Dual Cross-Attention プロジェクターを提案します。霧のような難条件下での性能向上を示しています(GPTScore: 53.5 対 ベースライン 25.1)。
- データセットとソースコードは公開される予定で、 自動運転のクロスモーダル知覚におけるさらなる研究とベンチマーク作成を可能にします。
補完的なモダリティを組み合わせたセンサーの統合は、不利な運転シーンを安定して理解するために重要です。しかし、Multimodal Large Language Models (MLLMs) は、自動運転車における複数センサ情報を活用して不利な運転シナリオを理解するには十分に検討されていません。このギャップに対応するため、DriveXQA という自動運転 VQA のマルチモーダルデータセットを提案します。4つの視覚モダリティに加え、5つのセンサ故障ケース、5つの天候条件を含み、グローバルシーンレベル、外部座標系レベル、そして自車中心レベルの3タイプに分類された102,505 のQAペアを含みます。既存のMLLMフレームワークは複数の補完的視覚モダリティを入力として採用していないため、モダリティを融合して情報の冗長性を軽減する Dual Cross-Attention(DCA)プロジェクターを備えたトークン効率の高いアーキテクチャ MVX-LLM を設計しました。実験の結果、DCA は霧がかかったような厳しい条件下で性能を向上させることを示しています(GPTScore: 53.5 対 ベースライン 25.1)。確立されたデータセットとソースコードは公開される予定です。