Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving
arXiv cs.RO / 4/7/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 提案手法PaIR-Driveは、エンドツーエンド自動運転における模倣学習(IL)のデモ品質依存という制約を、並列構成での模倣学習と強化学習(RL)の共同最適化で緩和する枠組みを提示しています。
- 従来の「IL→逐次的RL微調整」では方策ドリフトや性能天井が生じやすい点に対し、PaIR-DriveはIL/RLを2本の並列ブランチに分け、衝突しにくい学習目的で共同学習させることでこの問題を回避します。
- 推論時にはRLブランチがIL方策を参照して最終計画をさらに最適化し、ILの事前知識を超える性能向上を狙っています。
- さらにツリー構造の軌道サンプラを導入してGRPOを行い、探索能力を高める設計が含まれます。
- NAVSIM v1/v2ベンチマークで、TransfuserやDiffusionDriveといったIL基盤に対してPaIR-DriveがPDMS 91.2、EPDMS 87.9の競争的性能を示し、既存のRL微調整手法を一貫して上回るほか、人間の専門家の不適切行動を修正し得ることも分析・定性的結果で示しています。
Related Articles

Black Hat Asia
AI Business
Research with ChatGPT
Dev.to
Silicon Valley is quietly running on Chinese open source models and almost nobody is talking about it
Reddit r/LocalLLaMA

Why AI Product Quality Is Now an Evaluation Pipeline Problem, Not a Model Problem
Dev.to

The 10 Best AI Tools for SEO and Digital Marketing in 2026
Dev.to