要旨: エンドツーエンドの計画は、自動運転における支配的なパラダイムとして登場しており、最近のモデルの多くは、大量の候補から軌跡を選択するためにスコアリング・セレクションの枠組みを採用しているほか、拡散ベースのデコーディングが有望であることが示されています。とはいえ、候補空間全体から直接選択することは最適化が難しく、拡散で用いられるガウス摂動はしばしば非現実的な軌跡を導入し、ノイズ除去(デノイジング)過程を複雑にします。さらに、これらのモデルの学習では強化学習(RL)が有望であることが示されていますが、既存のエンドツーエンドRL手法は通常、構造化された信号のない単一の結合報酬に依存しているため、最適化の有効性が制限されています。これらの課題に対処するため、HAD(Hierarchical Diffusion Policy を用いたエンドツーエンド計画フレームワーク)を提案します。HAD は計画を粗い段階から精密な段階へと進める階層的なプロセスに分解します。軌跡生成を改善するために、運動学的構造を維持しつつ、現実的な候補を生成する Structure-Preserved Trajectory Expansion を導入します。ポリシー学習のためには、複数の運転目的にまたがって構造化されたRL最適化を可能にする Metric-Decoupled Policy Optimization(MDPO)を開発します。大規模な実験の結果、HAD は NAVSIM と HUGSIM の両方で新たな最先端の性能を達成し、従来手法を大幅に上回ります: NAVSIM で +2.3 EPDMS、HUGSIM で +4.9 ルート完了です。
HAD:階層型拡散とメトリック非結合型強化学習を統合したエンドツーエンド運転
arXiv cs.RO / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、階層型拡散(粗い軌道からの高精度化)と強化学習を組み合わせることで、より良い軌道最適化を実現するエンドツーエンド自動運転の計画フレームワークHADを提案する。
- より現実的な拡散候補を生成しつつ運動学的構造を保持するために、構造保存型軌道拡張(Structure-Preserved Trajectory Expansion)を提案し、不現実なガウス摂動によって生じる除ノイズ(denoising)の難しさを低減することを目指す。
- 学習においては、単一の結合報酬ではなく、構造化された信号を用いて複数の運転目的を最適化する、メトリック非結合型ポリシー最適化(Metric-Decoupled Policy Optimization:MDPO)を提示する。
- 実験では、NAVSIMおよびHUGSIMの両方で新たな最先端の結果が報告されており、NAVSIMで+2.3 EPDMS、HUGSIMで+4.9 Route Completionの改善が得られた。
- 全体として、本研究は、拡散ベースのデコーディングにおける候補選択/軌道生成のボトルネックと、従来のエンドツーエンド強化学習アプローチにおける最適化上の制約の双方を対象としている。




