UniDriveVLA：自動運転のための理解・知覚・行動計画を統合する

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

UniDriveVLAは、Vision-Language-Action（VLA）による自動運転システムにおける重要な課題として、既存モデルに見られる「空間知覚の品質」と「意味推論能力」のトレードオフに取り組む。
提案モデルは、Mixture-of-Transformersの設計とエキスパートのデカップリング（専門家の分離）を用い、理解、シーン知覚、行動計画を分離し、マスク付きの共同注意（masked joint attention）によってそれらを協調させる。
疎な知覚（sparse perception）アプローチにより空間知覚を改善し、意味推論を維持することを目的とした3段階の段階的トレーニング戦略を導入する。
実験では、nuScenes（オープンループ）およびBench2Drive（クローズドループ）において最先端の結果を報告しており、さらに3D検出、オンライン地図作成、モーション予測、運転向けVQAでも高い性能を示す。
著者らはコードとモデルをGitHubで公開しており、研究者や実務者がこのアプローチを基盤として、より広範な自動運転VLA研究に発展させることを可能にする。

要旨: Vision-Language-Action（VLA）モデルは、近年、自動運転分野で注目を集めており、豊富な世界知識を活用して運転システムの認知能力を高められる可能性が期待されています。しかし、こうしたモデルを運転タスクに適応することは現在、空間認識と意味推論の間にある重要なジレンマに直面しています。その結果、既存のVLAシステムは最適でない妥協を強いられています。すなわち、2DのVision-Languageモデルをそのまま採用すると空間認識が限られる一方で、3Dの空間表現で強化するとVLM本来の推論能力が損なわれがちです。本研究では、このジレンマは主に、共有モデルパラメータ内で空間認識と意味推論を同時（結合）に最適化していることに起因すると考えます。これを克服するために、専門家（エキスパート）をデカップリングすることで認識と推論の衝突を解決する、Mixture-of-Transformersに基づく統一型ドライビングVision-Language-ActionモデルであるUniDriveVLAを提案します。具体的には、運転理解、シーン認識、行動計画のための3つのエキスパートを備え、マスク付きのジョイントアテンションによって連携させます。さらに、スパースな認識パラダイムと、空間認識を向上させつつ意味推論能力を維持するための3段階の段階的学習戦略を組み合わせます。大規模な実験の結果、UniDriveVLAはnuScenesにおけるオープンループ評価およびBench2Driveにおけるクローズドループ評価で先行技術（state-of-the-art）の性能を達成することが示されました。加えて、3D検出、オンライン地図作成、モーション予測、運転志向のVQAなど、認識・予測・理解の幅広いタスクにわたって強い性能を示しており、自動運転のための統一モデルとしての幅広い適用可能性を強調しています。コードとモデルは https://github.com/xiaomi-research/unidrivevla で公開されています