DriveVA:ビデオ・アクション・モデルはゼロショット・ドライバーである

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DriveVAは、自律運転のためのワールドモデルであり、将来のビデオ予測とアクション/軌道(トラジェクトリ)系列を共同でモデル化することで、未見のシナリオ、センサ領域、環境条件における一般化性能を向上させることを目的としています。
  • 提案手法は、共有された潜在生成プロセスとDiTベースのデコーダを用いることで、従来のワールドモデル・プランナの限界に対処します。これにより、視覚的な想像(イメージネーション)と計画されたアクションの整合性を高め、ビデオ—軌道の一貫性を改善します。
  • DriveVAは、大規模に事前学習されたビデオ生成モデルからの事前知識(プリオル)を活用し、連続的な時空間の変化と、物理的に妥当な運動ダイナミクスを捉えます。
  • 長時間のクローズドループ予測における整合性を強化するために、「ビデオ・コンティニュエーション(動画の継続)」によるロールアウト戦略が導入されています。
  • 実験ではDriveVAは強力なクローズドループ性能(NAVSIMで90.9 PDM)を報告しており、nuScenesおよびBench2drive/CARLA v2において、L2誤差や衝突率の低減を含む、最先端手法に対する大幅な改善とともに、ゼロショットおよびクロスドメインの一般化結果も示しています。

Abstract

一般化は自動運転における中心的な課題であり、現実世界への展開では、未知のシナリオ、センサ領域、環境条件に対して頑健な性能が要求されます。近年、世界モデルに基づく計画手法は、シーン理解やマルチモーダルな将来予測において強力な能力を示してきましたが、データセットやセンサ構成にまたがる一般化は依然として限られています。さらに、これらの手法の疎結合な計画パラダイムは、視覚的イマジネーションにおける動画軌道の一貫性が低くなることがしばしばあります。これらの制約を克服するために、我々は、共有された潜在生成プロセスのもとで将来の視覚予測とアクション列を共同でデコードする、新しい自動運転向け世界モデル DriveVA を提案します。DriveVA は、大規模な動画生成モデルによる十分に学習済みのものから、運動ダイナミクスと物理的妥当性に関する豊かな事前知識を継承し、連続的な時空間の発展と因果的な相互作用パターンを捉えます。そのために、DriveVA は DiT ベースのデコーダを用いて、将来のアクション列(軌道)と動画を同時に予測し、計画とシーンの進展の間のより密な整合を可能にします。また、長時間ロールアウトにおける一貫性を強化するための動画継続戦略も導入します。DriveVA は、チャレンジ NAVSIM において 90.9 の PDM スコアという印象的なクローズドループ性能を達成しています。さらに、大規模な実験により、DriveVA がゼロショット能力とクロスドメインでの一般化を備えていることが示されます。これにより、CARLA v2 上で構築された nuScenes および Bench2drive において、既存の最先端の世界モデルベース計画器と比較して、平均 L2 誤差と衝突率がそれぞれ 78.9% と 83.3%、および 52.5% と 52.4% 削減されます。