本文: arXiv:2603.11041v1 Announce Type: new
要旨: 我々は DynVLA を提案します。DynVLA は Dynamics CoT と呼ばれる新しい CoT パラダイムを導入する運転用 VLA モデルです。DynVLA はアクション生成の前にコンパクトな世界ダイナミクスを予測し、より情報に基づいた、物理的根拠に基づく意思決定を可能にします。コンパクトなダイナミクス表現を得るため、DynVLA は未来の進展を少数のダイナミクストークンに圧縮するダイナミクストークナイザーを導入します。相互作用の豊富な運転シナリオにおける環境ダイナミクスの豊かなダイナミクスを考慮して、DynVLA は自己中心ダイナミクスと環境中心ダイナミクスを分離し、より正確な世界ダイナミクスのモデリングを実現します。次に、SFT と RFT を通じてアクションより前にダイナミクストークンを生成するように DynVLA を訓練し、遅延を抑えた推論を維持しつつ意思決定の品質を向上させます。テキストベースの CoT(Textual CoT)が細かな時空間理解を欠くのに対し、密な画像予測によって生じる冗長性の多い Visual CoT と比較して、Dynamics CoT は世界の進化をコンパクトで解釈可能かつ効率的な形で捉えます。NAVSIM、Bench2Drive、および大規模な社内データセットでの広範な実験により、DynVLA は Textual CoT および Visual CoT の手法を一貫して上回ることが示され、Dynamics CoT の有効性と実用的価値が検証されています。
DynVLA: 自動運転における行動推論のための世界ダイナミクスの学習
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DynVLAは、アクションを生成する前にコンパクトな世界ダイナミクスを予測する、新しい推論パラダイム「Dynamics CoT」を自動運転にもたらします。
- ダイナミクストークナイザーは、将来の進展を少数のダイナミクストークンに圧縮し、物理的根拠に基づく意思決定とレイテンシー効率の高い判断を可能にします。
- 本モデルは自己中心ダイナミクスと環境中心ダイナミクスを分離して、相互作用が豊富な運転シナリオをより適切に捉え、NAVSIM、Bench2Drive、および社内データセットにおいてTextual CoTおよびVisual CoTより優れた性能を達成します。
- 世界ダイナミクスをコンパクトで解釈可能な表現として提供することで、密な画像予測と比較して冗長性を抑えつつ、実用的な推論レイテンシを維持します。
