DriveVA:ビデオ・アクション・モデルはゼロショット・ドライバーである
arXiv cs.RO / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DriveVAは、自律運転のためのワールドモデルであり、将来のビデオ予測とアクション/軌道(トラジェクトリ)系列を共同でモデル化することで、未見のシナリオ、センサ領域、環境条件における一般化性能を向上させることを目的としています。
- 提案手法は、共有された潜在生成プロセスとDiTベースのデコーダを用いることで、従来のワールドモデル・プランナの限界に対処します。これにより、視覚的な想像(イメージネーション)と計画されたアクションの整合性を高め、ビデオ—軌道の一貫性を改善します。
- DriveVAは、大規模に事前学習されたビデオ生成モデルからの事前知識(プリオル)を活用し、連続的な時空間の変化と、物理的に妥当な運動ダイナミクスを捉えます。
- 長時間のクローズドループ予測における整合性を強化するために、「ビデオ・コンティニュエーション(動画の継続)」によるロールアウト戦略が導入されています。
- 実験ではDriveVAは強力なクローズドループ性能(NAVSIMで90.9 PDM)を報告しており、nuScenesおよびBench2drive/CARLA v2において、L2誤差や衝突率の低減を含む、最先端手法に対する大幅な改善とともに、ゼロショットおよびクロスドメインの一般化結果も示しています。




