$AutoDrive ext{-}P^3$: 強化学習による微調整を通じた、知覚—予測—計画の統一的な推論チェーン

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AutoDrive-P^3は、VLMを自動運転のエンドツーエンド計画に用いる際の課題（CoT欠如による領域ギャップ、モジュール分断によるシナジー不足）を、知覚・予測・計画を統一した推論で解決する枠組みとして提案している。
知覚→予測→計画の情報依存を明確化しつつ、知覚と予測の双方が最終計画に寄与する設計により、Perception-Prediction-Planningを一連のP^3-CoT（structured reasoning）で結びつける。
P^3-GRPOという階層型強化学習アルゴリズムで、知覚・予測・計画の全タスクに対して段階的な進捗監督（progressive supervision）を与え、CoT推論と回答生成を段階的に学習させる。
推論効率と性能の両立のために「detailed thinking（詳細推論）」と「fast thinking（高速推論）」の2つの思考モードを導入し、オープンループ（nuScenes）/クローズドループ（NAVSIMv1/v2）で計画タスクのSOTA性能を報告している。
コードはGitHubで公開されており、研究・再現に向けた利用可能性も示されている。

要旨: 長い尾（ロングテール）シナリオを扱う際に優れた性能を示すことから、視覚言語モデル（VLM）はエンドツーエンドの自動運転システムへますます採用されつつあります。しかし、現在のVLMベースの手法には大きく2つの限界があります。 1) 一部のVLMは、連鎖的思考（CoT）による推論なしに計画結果を直接出力し、重要な知覚・予測の段階を迂回してしまうため、顕著なドメインギャップが生じ、意思決定能力が損なわれます。 2) 別のVLMは、知覚・予測・計画タスクのための出力を生成できますが、意思決定が断片化された方式を用いており、これらのモジュールが別々に動作することで、真の計画性能を損なうほどの大きな相乗効果の欠如につながります。これらの制約に対処するため、構造化された推論を通じて $\textbf{P}$ erception（知覚）、 $\textbf{P}$ rediction（予測）、 $\textbf{P}$ lanning（計画）をシームレスに統合する新しい枠組み ${AutoDrive\text{-}P^3}$ を提案します。我々は、一貫した推論を促進するための ${P^3\text{-}CoT}$ データセットを導入し、さらに3つのタスクすべてに対して段階的な教師信号を与える階層型強化学習アルゴリズム ${P^3\text{-}GRPO}$ を提案します。具体的には、 ${AutoDrive\text{-}P^3}$ は知覚・予測・計画それぞれのために段階的にCoT推論と回答を生成し、知覚がその後の予測および計画に必要な情報を提供します。また、知覚と予測は合わせて最終的な計画判断に寄与し、安全で、かつ解釈可能な自動運転を実現します。さらに、推論効率と性能のバランスを取るため、詳細思考と高速思考の2つの思考モードを導入します。オープンループ（nuScenes）およびクローズドループ（NAVSIMv1/v2）の両方のベンチマークに関する大規模な実験により、本手法が計画タスクにおいて最先端の性能を達成することを示します。コードは https://github.com/haha-yuki-haha/AutoDrive-P3 で利用可能です。