概要: 視覚-言語-行動モデルは、自動運転において言語を意思決定プロセスに取り込むことで、自律走行を大きく変革してきました。しかし、既存のほとんどのパイプラインは、言語モダリティを場面の記述や推論にのみ用いるため、個別化された運転に向けて多様なユーザー指示に柔軟に従うことができません。これに対処するために、まず対応する軌道(trajectory)とともに、多様な運転指示で注釈付けされた約100,000のシーンを含む大規模な運転データセット(InstructScene)を構築します。次に、指示に基づく生成と計画のための統一型のVision-Language-World-ActionモデルであるVegaを提案します。我々は、視覚入力(vision)と言語指示(language)を処理するために自己回帰パラダイムを採用し、将来予測(world modeling)と軌道(action)を生成するために拡散パラダイムを用います。モダリティ間の相互作用を可能にするために共同注意(joint attention)を行い、さらに高い能力を得るためにモダリティごとに個別の射影層を使用します。大規模な実験の結果、提案手法は計画性能の面で優れているだけでなく、指示に強く従う能力も示し、より知的で個別化された運転システムへの道を切り開きます。
Vega:自然言語による指示で学ぶ運転
arXiv cs.RO / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 既存の視覚-言語-行動モデルは、自動運転において言語を説明・推論に限定しがちで、ユーザー指示の多様性に柔軟に従う点が課題だと述べています。
- 大規模ドライビングデータセット InstructScene(約10万シーン、指示文と対応する軌跡をアノテーション)を構築し、指示ベースの学習を可能にしています。
- ビジョン・言語・ワールドモデル・アクションを統合した Vision-Language-World-Action モデル Vega を提案し、自己回帰で視覚と言語を扱い、拡散モデルで将来予測と軌跡生成を行います。
- モーダル間の相互作用のために joint attention を用い、モダリティごとに個別の投影層を設けることで能力拡張を図っています。
- 実験では計画性能の向上と強い指示追従性が示され、個別最適化されたより知的な運転システムへの道を開くと結論づけています。



