微調整だけでは不十分：エンドツーエンド自動運転における協調的模倣学習と強化学習のための並列フレームワーク

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案手法PaIR-Driveは、エンドツーエンド自動運転における模倣学習(IL)のデモ品質依存という制約を、並列構成での模倣学習と強化学習(RL)の共同最適化で緩和する枠組みを提示しています。
従来の「IL→逐次的RL微調整」では方策ドリフトや性能天井が生じやすい点に対し、PaIR-DriveはIL/RLを2本の並列ブランチに分け、衝突しにくい学習目的で共同学習させることでこの問題を回避します。
推論時にはRLブランチがIL方策を参照して最終計画をさらに最適化し、ILの事前知識を超える性能向上を狙っています。
さらにツリー構造の軌道サンプラを導入してGRPOを行い、探索能力を高める設計が含まれます。
NAVSIM v1/v2ベンチマークで、TransfuserやDiffusionDriveといったIL基盤に対してPaIR-DriveがPDMS 91.2、EPDMS 87.9の競争的性能を示し、既存のRL微調整手法を一貫して上回るほか、人間の専門家の不適切行動を修正し得ることも分析・定性的結果で示しています。

要旨: エンドツーエンドの自律運転は通常、模倣学習（IL）に基づいて構築されますが、その性能は人間によるデモンストレーションの品質によって制約されます。この制限を克服するために、近年の手法では、逐次的なファインチューニングを通じて強化学習（RL）を取り入れています。しかし、このようなパラダイムはなお最適ではありません。逐次RLのファインチューニングではポリシードリフトが生じ得るほか、事前学習済みのILポリシーに依存するため、性能が頭打ちになることがしばしばあります。これらの問題に対処するため、我々はPaIR-Driveを提案します。PaIR-Driveは、エンドツーエンド自律運転における、協調的な模倣学習と強化学習のための一般的な並列フレームワークです。学習中、PaIR-DriveはILとRLを2つの並列ブランチに分離し、衝突のない学習目的によって、完全に協調的な最適化を可能にします。この設計により、新しいILポリシーを適用する際にRLを再学習する必要がなくなります。推論中は、RLがILポリシーを活用して最終プランをさらに最適化し、ILの事前知識を超える性能を実現します。さらに、RLブランチにおける相対的ポリシー最適化（GRPO）をツリー構造化した軌道ニューラルサンプラーとして導入し、探索能力を高めます。NAVSIMv1およびv2のベンチマークに関する広範な分析により、PaIR-DriveがTransfuserおよびDiffusionDriveのILベースラインに基づき、競争力のある91.2 PDMSおよび87.9 EPDMSの性能を達成することが示されます。PaIR-Driveは既存のRLファインチューニング手法を一貫して上回り、さらには人間の専門家による不最適な振る舞いを修正できる可能性さえあります。質的結果も、PaIR-Driveが効果的に探索し、高品質な軌道を生成できることを裏付けています。

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

微調整だけでは不十分：エンドツーエンド自動運転における協調的模倣学習と強化学習のための並列フレームワーク

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別