自動運転のための視覚・言語・行動世界モデルの学習
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自動運転のためのVLA-Worldという視覚・言語・行動(VLA)世界モデルを提案し、典型的なVLAエンドツーエンド自動運転モデルを超えて時間的ダイナミクスとグローバルな整合性を追加することで、予見性と安全性の向上を目指す。
- VLA-Worldはまず、行動に基づく実行可能な軌道を用いて次フレームの将来映像を生成し、その後、想像した未来に対して自己の予測を反省的推論することで、予測軌道を洗練(改良)する。
- 学習と評価を可能にするため、著者らはnuScenesから派生した生成的推論データセットnuScenes-GR-20Kを作成し、三段階のパイプライン(事前学習、教師あり微調整、強化学習)でシステムを訓練する。
- 実験結果によれば、VLA-Worldは計画および将来生成のベンチマークの両方で、最新のVLAおよび世界モデルのベースラインを上回り、解釈可能性も向上する。

