自動運転のための視覚・言語・行動世界モデルの学習

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自動運転のためのVLA-Worldという視覚・言語・行動(VLA)世界モデルを提案し、典型的なVLAエンドツーエンド自動運転モデルを超えて時間的ダイナミクスとグローバルな整合性を追加することで、予見性と安全性の向上を目指す。
  • VLA-Worldはまず、行動に基づく実行可能な軌道を用いて次フレームの将来映像を生成し、その後、想像した未来に対して自己の予測を反省的推論することで、予測軌道を洗練(改良)する。
  • 学習と評価を可能にするため、著者らはnuScenesから派生した生成的推論データセットnuScenes-GR-20Kを作成し、三段階のパイプライン(事前学習、教師あり微調整、強化学習)でシステムを訓練する。
  • 実験結果によれば、VLA-Worldは計画および将来生成のベンチマークの両方で、最新のVLAおよび世界モデルのベースラインを上回り、解釈可能性も向上する。