DynVLA: 自動運転における行動推論のための世界ダイナミクスの学習

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

DynVLAは、アクションを生成する前にコンパクトな世界ダイナミクスを予測する、新しい推論パラダイム「Dynamics CoT」を自動運転にもたらします。
ダイナミクストークナイザーは、将来の進展を少数のダイナミクストークンに圧縮し、物理的根拠に基づく意思決定とレイテンシー効率の高い判断を可能にします。
本モデルは自己中心ダイナミクスと環境中心ダイナミクスを分離して、相互作用が豊富な運転シナリオをより適切に捉え、NAVSIM、Bench2Drive、および社内データセットにおいてTextual CoTおよびVisual CoTより優れた性能を達成します。
世界ダイナミクスをコンパクトで解釈可能な表現として提供することで、密な画像予測と比較して冗長性を抑えつつ、実用的な推論レイテンシを維持します。

本文: arXiv:2603.11041v1 Announce Type: new
要旨: 我々は DynVLA を提案します。DynVLA は Dynamics CoT と呼ばれる新しい CoT パラダイムを導入する運転用 VLA モデルです。DynVLA はアクション生成の前にコンパクトな世界ダイナミクスを予測し、より情報に基づいた、物理的根拠に基づく意思決定を可能にします。コンパクトなダイナミクス表現を得るため、DynVLA は未来の進展を少数のダイナミクストークンに圧縮するダイナミクストークナイザーを導入します。相互作用の豊富な運転シナリオにおける環境ダイナミクスの豊かなダイナミクスを考慮して、DynVLA は自己中心ダイナミクスと環境中心ダイナミクスを分離し、より正確な世界ダイナミクスのモデリングを実現します。次に、SFT と RFT を通じてアクションより前にダイナミクストークンを生成するように DynVLA を訓練し、遅延を抑えた推論を維持しつつ意思決定の品質を向上させます。テキストベースの CoT（Textual CoT）が細かな時空間理解を欠くのに対し、密な画像予測によって生じる冗長性の多い Visual CoT と比較して、Dynamics CoT は世界の進化をコンパクトで解釈可能かつ効率的な形で捉えます。NAVSIM、Bench2Drive、および大規模な社内データセットでの広範な実験により、DynVLA は Textual CoT および Visual CoT の手法を一貫して上回ることが示され、Dynamics CoT の有効性と実用的価値が検証されています。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

DynVLA: 自動運転における行動推論のための世界ダイナミクスの学習

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer