自動運転のための視覚・言語・行動世界モデルの学習

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転のためのVLA-Worldという視覚・言語・行動（VLA）世界モデルを提案し、典型的なVLAエンドツーエンド自動運転モデルを超えて時間的ダイナミクスとグローバルな整合性を追加することで、予見性と安全性の向上を目指す。
VLA-Worldはまず、行動に基づく実行可能な軌道を用いて次フレームの将来映像を生成し、その後、想像した未来に対して自己の予測を反省的推論することで、予測軌道を洗練（改良）する。
学習と評価を可能にするため、著者らはnuScenesから派生した生成的推論データセットnuScenes-GR-20Kを作成し、三段階のパイプライン（事前学習、教師あり微調整、強化学習）でシステムを訓練する。
実験結果によれば、VLA-Worldは計画および将来生成のベンチマークの両方で、最新のVLAおよび世界モデルのベースラインを上回り、解釈可能性も向上する。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH