微調整だけでは不十分:エンドツーエンド自動運転における協調的模倣学習と強化学習のための並列フレームワーク

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案手法PaIR-Driveは、エンドツーエンド自動運転における模倣学習(IL)のデモ品質依存という制約を、並列構成での模倣学習と強化学習(RL)の共同最適化で緩和する枠組みを提示しています。
  • 従来の「IL→逐次的RL微調整」では方策ドリフトや性能天井が生じやすい点に対し、PaIR-DriveはIL/RLを2本の並列ブランチに分け、衝突しにくい学習目的で共同学習させることでこの問題を回避します。
  • 推論時にはRLブランチがIL方策を参照して最終計画をさらに最適化し、ILの事前知識を超える性能向上を狙っています。
  • さらにツリー構造の軌道サンプラを導入してGRPOを行い、探索能力を高める設計が含まれます。
  • NAVSIM v1/v2ベンチマークで、TransfuserやDiffusionDriveといったIL基盤に対してPaIR-DriveがPDMS 91.2、EPDMS 87.9の競争的性能を示し、既存のRL微調整手法を一貫して上回るほか、人間の専門家の不適切行動を修正し得ることも分析・定性的結果で示しています。

要旨: エンドツーエンドの自律運転は通常、模倣学習(IL)に基づいて構築されますが、その性能は人間によるデモンストレーションの品質によって制約されます。この制限を克服するために、近年の手法では、逐次的なファインチューニングを通じて強化学習(RL)を取り入れています。しかし、このようなパラダイムはなお最適ではありません。逐次RLのファインチューニングではポリシードリフトが生じ得るほか、事前学習済みのILポリシーに依存するため、性能が頭打ちになることがしばしばあります。これらの問題に対処するため、我々はPaIR-Driveを提案します。PaIR-Driveは、エンドツーエンド自律運転における、協調的な模倣学習と強化学習のための一般的な並列フレームワークです。学習中、PaIR-DriveはILとRLを2つの並列ブランチに分離し、衝突のない学習目的によって、完全に協調的な最適化を可能にします。この設計により、新しいILポリシーを適用する際にRLを再学習する必要がなくなります。推論中は、RLがILポリシーを活用して最終プランをさらに最適化し、ILの事前知識を超える性能を実現します。さらに、RLブランチにおける相対的ポリシー最適化(GRPO)をツリー構造化した軌道ニューラルサンプラーとして導入し、探索能力を高めます。NAVSIMv1およびv2のベンチマークに関する広範な分析により、PaIR-DriveがTransfuserおよびDiffusionDriveのILベースラインに基づき、競争力のある91.2 PDMSおよび87.9 EPDMSの性能を達成することが示されます。PaIR-Driveは既存のRLファインチューニング手法を一貫して上回り、さらには人間の専門家による不最適な振る舞いを修正できる可能性さえあります。質的結果も、PaIR-Driveが効果的に探索し、高品質な軌道を生成できることを裏付けています。