エンドツーエンド運転のための潜在チェーン・オブ・ソート・ワールドモデリング

arXiv cs.RO / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性と性能を困難なシナリオで向上させることを目的として、エンドツーエンド自律運転のための潜在チェーン・オブ・ソート・ワールドモデリング(LCDrive)を提案する。
  • テキストベースのチェーン・オブ・ソートの代わりに、LCDriveは、行動語彙から得られるアクション提案トークンと、見込みのある将来の結果を捉えるワールドモデル用トークンを相互に織り込む形で、潜在言語により推論を表現する。
  • モデルは、グラウンドトゥルースの将来ロールアウトに基づいて、アクション提案とワールドモデル用トークンの両方を教師ありで学習することで「コールドスタート」し、その後、閉ループ強化学習によって推論をさらに改善する。
  • 大規模なエンドツーエンド運転ベンチマークにおいて、LCDriveは推論の高速化、より高い軌道品質、さらにインタラクティブ強化学習による非推論型およびテキスト推論型のベースラインよりも強力な改善を報告している。

Abstract

自動運転における最近のビジョン・言語・行動(VLA)モデルは、推論時の推論(inference-time reasoning)を用いて、困難なシナリオにおける走行性能と安全性を向上させることを探っています。従来の多くの研究では、走行アクションを生成する前に、連鎖的思考(CoT)の推論を自然言語で表現する方法が用いられています。しかし、推論のための表現としてテキストが最も効率的であるとは限りません。本研究では、運転行動の候補として検討される行動の起こりうる結果を捉える潜在言語においてCoTを表現するモデル、Latent-CoT-Drive(LCDrive)を提案します。我々のアプローチは、行動に整合した潜在空間で推論と意思決定の両方を表現することで、CoT推論と意思決定を統一します。自然言語の代わりに、モデルは(1)モデルの出力アクションと同じ語彙を用いる「アクション提案トークン」と、(2)学習済みの潜在ワールドモデルに基づき、これらの行動の将来の結果を表す「ワールドモデルトークン」を交互に挿入することで推論します。我々は、シーンの正解となる将来ロールアウトに基づいて、アクション提案トークンとワールドモデルトークンを教師信号として与え、潜在CoTをコールドスタートします。その後、クローズドループ強化学習で事後学習(post-train)し、推論能力を強化します。大規模なエンドツーエンド走行ベンチマークにおいて、LCDriveは、推論を行わないベースラインおよびテキストによる推論ベースラインの両方と比較して、より速い推論、より良い軌道品質、ならびに対話型強化学習によるより大きな改善を達成します。