DVGT-2: スケールする自動運転のための Vision-Geometry-Action モデル

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転のための新しい Vision-Geometry-Action（VGA）パラダイムを提案し、VLA モデルで用いられる疎な知覚や言語拡張による計画ではなく、意思決定のための主要な手がかりとして密な 3D ジオメトリを重視する。
ストリーミング型の Driving Visual Geometry Transformer である DVGT-2 を提案し、現在フレームに対して密なジオメトリと走行軌道計画を出力することで、オンライン推論を実現する。
DVGT-2 は、時間的な因果的注意、過去の特徴のキャッシュ、そして反復計算を抑えるスライディングウィンドウによるストリーミング戦略を用いることで、リアルタイム適用を可能にしている。
複数のデータセットにおいて、より高速性を維持しつつ、密なジオメトリ再構成の性能が向上したと報告している。
重要な主張として、転移可能性が挙げられる。すなわち、同一の学習済み DVGT-2 を微調整なしで異なるカメラ構成間で計画に適用できるというものであり、クローズドループの NAVSIM とオープンループの nuScenes ベンチマークで検証されている。

概要: エンドツーエンドの自律運転は、疎な知覚に基づく従来のパラダイムから、計画を促進するための補助タスクとして言語記述の学習に焦点を当てるビジョン言語アクション（VLA）モデルへと進化してきました。本論文では、自律運転における重要な手がかりとして緻密な3Dジオメトリを推奨する、別のVision-Geometry-Action（VGA）パラダイムを提案します。車両が3Dの世界で動作する以上、緻密な3Dジオメトリは意思決定のための最も包括的な情報を提供すると考えます。しかし、既存の多くのジオメトリ再構成手法（例：DVGT）は、複数フレーム入力の計算コストの高いバッチ処理に依存しており、オンライン計画には適用できません。そこで、入力をオンラインな形で処理し、現在のフレームに対して緻密なジオメトリと軌道計画を同時に出力するストリーミング型Driving Visual Geometry Transformer（DVGT-2）を導入します。オンザフライ推論を支えるために、時間的な因果注意と、過去の特徴をキャッシュする仕組みを採用します。さらに効率を高めるため、スライディングウィンドウのストリーミング戦略を提案し、一定の間隔内の履歴キャッシュを用いることで、反復計算を回避します。より高速であるにもかかわらず、DVGT-2はさまざまなデータセットにおいて優れたジオメトリ再構成性能を達成します。同じ学習済みのDVGT-2は、微調整なしで、多様なカメラ構成にまたがる計画に直接適用でき、クローズドループのNAVSIMおよびオープンループのnuScenesベンチマークを含みます。