Abstract
自動運転システムにおける視覚-言語-行動(VLA)モデルは、マルチモーダル知覚と意思決定能力を統合することで、近年目覚ましい変革的可能性を示してきました。しかし、意思決定プロセスの解釈可能性と首尾一貫性、そして行動系列の妥当性( plausibility )は、いまだ十分に探究されていません。これらの課題に対処するために、我々は AutoDrive-R^2 を提案します。これは、連鎖思考(CoT)処理と強化学習(RL)によって、自動運転システムの推論能力と自己反省能力の両方を高める新しい VLA フレームワークです。具体的には、まず教師あり微調整のための革新的な CoT データセット nuScenesR^2-6K を提案し、自己反省による検証を備えた4ステップの論理的連鎖を通じて、入力情報と出力軌跡の間に効果的な認知的ブリッジを構築します。さらに、RL 段階で推論と自己反省の両方を最大化するために、物理に基づいた報酬フレームワークのもとで Group Relative Policy Optimization(GRPO)アルゴリズムを採用します。この報酬フレームワークには、空間的整合、車両ダイナミクス、時間的な滑らかさという基準を組み込み、信頼でき現実的な軌跡計画を保証します。nuScenes および Waymo の両データセットにわたる広範な評価結果は、提案手法の最先端の性能と堅牢な汎化能力を示しています。