BridgeSim: エンドツーエンド自動運転におけるOL-CLギャップの解明
arXiv cs.RO / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンドツーエンド自動運転におけるOL-CLギャップを調査し、オープンループ(OL)ポリシーがOL評価で高いスコアを得ていても、クローズドループ(CL)環境に展開すると失敗し得ることを示している。
- このギャップの主因として、Observational Domain Shift(観測ドメインシフト:主に適応によって回復可能)と、Objective Mismatch(目的の不一致:複雑な反応行動をモデル化する能力を構造的に制限する問題)を挙げている。
- 著者らは、多くのOLポリシーが、CLにおける反応性を見落とす偏ったQ値推定器を学習しており、誤りの連鎖(compounding errors)を防ぐために必要な時間的な認識(temporal awareness)を欠いていることを見出している。
- 彼らは、観測シフトをキャリブレートし、状態-行動のバイアスを低減し、さらに時間的一貫性を強制するテスト時適応(TTA)フレームワークを提案する。
- 実験の結果、TTAは計画バイアスを低減し、スケーリングダイナミクスを改善することが示された。同時に、一般的なOL評価プロトコルでは、クローズドループ展開における「ブラインドスポット」を見逃し得ることも明らかにしている。



