RAD-2：生成器–識別器フレームワークによる強化学習のスケーリング

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、多峰性の将来不確実性に対するクローズドループ計画を対象に、自動運転のための生成器–識別器型強化学習フレームワーク「RAD-2」を提案します。
拡散ベースの生成器で多様な軌道候補を生成し、RLで最適化した識別器が長期的な走行品質に基づいて候補を再ランクすることで、イミテーション学習のみの場合よりも有効な負のフィードバックを与えます。
RAD-2は、時間的一貫性を活かしたTemporally Consistent Group Relative Policy Optimizationによりクレジット割当問題を緩和し、さらにOn-policy Generator Optimizationでクローズドループのフィードバックを構造化された最適化信号に変換して、報酬の高い軌道領域へ生成器を段階的に寄せます。
大規模学習と評価を支えるため、BEV-Warpという高スループットなシミュレーション環境を提案し、空間ワーピングによってBEV（Bird's-Eye View）特徴空間上でクローズドループ評価を直接行います。
実験では、強力な拡散ベースのプランナーに比べて衝突率が56%低下し、複雑な都市交通において実世界でも知覚される安全性と走行の滑らかさが改善したと報告されています。

要旨: 高度な自律運転には、閉ループ相互作用において頑健でありながら、多峰性の将来不確実性をモデル化できる運動計画器が必要です。拡散ベースの計画器は複雑な軌道分布のモデリングに有効ですが、しばしば確率的な不安定性に悩まされ、また模倣学習のみで学習した場合には修正的な負のフィードバックが欠けます。これらの課題に対処するため、閉ループ計画のための統一的なジェネレータ-ディスクリミネータ枠組みであるRAD-2を提案します。具体的には、多様な軌道候補を生成するために拡散ベースのジェネレータを用い、そして強化学習で最適化したディスクリミネータがそれらの候補を長期的な運転品質に基づいて再順位付けします。この分離した設計により、疎なスカラー報酬を高次元の軌道空間全体に直接適用することを避けられ、その結果、最適化の安定性が向上します。さらに強化学習を高めるために、時間的一貫性を持つグループ相対方策最適化（Temporally Consistent Group Relative Policy Optimization）を導入します。これは時間的な整合性を活用して、クレジット割当て問題を緩和します。加えて、On-policy Generator Optimizationも提案します。これは、閉ループフィードバックを縦方向の構造化された最適化信号へと変換し、ジェネレータを高報酬の軌道マニフォールドへ向けて段階的にシフトします。大規模な効率的学習を支えるために、BEV-Warpと呼ぶ高スループットなシミュレーション環境を導入します。これは、空間的ワーピングにより、Bird's-Eye View（俯瞰視点）の特徴空間上で閉ループ評価を直接実行します。RAD-2は、強力な拡散ベース計画器と比較して衝突率を56%低減します。実環境でのデプロイメントはさらに、複雑な都市交通において知覚される安全性と走行の滑らかさが向上することを示しています。