Rectify, Don't Regret:軌道予測における微分可能シミュレーションの落とし穴を回避する

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、完全に微分可能なクローズドループ軌道シミュレータがショートカット学習に悩まされる可能性があると主張する。これは、逆伝播された勾配が、誘導される状態入力を通じて未来の正解情報を漏えいさせてしまう現象である。
  • そこで、シミュレーション手順間で計算グラフを明示的に切断する「detached receding horizon rollout(切断された後退予測ホライズンのロールアウト)」手法を提案し、過去の予測に対する非因果的な「regret(後悔)に基づく」最適化を防ぐ。
  • nuScenes および DeepScenario における実験では、本手法により、ドリフトした状態からの回復の頑健性が向上し、高い再計画頻度における完全に微分可能なクローズドループ学習と比べて、目標との衝突を最大 33.24% 削減できることが示された。
  • 標準的なオープンループ基準手法と比較しても、非微分な学習フレームワークは、密な環境で衝突を最大 27.74% 減らすとともに、多峰性(マルチモーダル)な予測の多様性やレーン整合性を改善する。

要旨: 現在のオープンループ軌道モデルは、実環境における自動運転では苦手です。というのも、初期の小さなずれがしばしば連鎖して誤差が増幅され、エージェントを分布外(out-of-distribution)の状態へと押し込んでしまうからです。完全に微分可能なクローズドループ・シミュレータはこの問題に対処しようとするものの、ショートカット学習に悩まされます。具体的には、損失の勾配が、誘発された状態入力を通じて逆向きに流れてしまい、意図せず将来の正解(ground truth)情報がモデル自身の過去の予測へ直接リークされます。モデルはこれらの信号を利用して、ドリフト(逸脱)を不自然に回避し、因果的でない形で過去の誤りを「後悔(regret)」することで見かけ上うまく振る舞います。すなわち、本当に反応的な回復を学習しているのではありません。この問題に対処するため、切り離した後退ホライズン(receding horizon)のロールアウトを導入します。シミュレーション手順間で計算グラフを明示的に断ち切ることで、モデルはドリフトした状態からの真の回復行動を学習できるようになります。これにより、因果に反する形で過去の予測を最適化するのではなく、誤りを「修正(rectify)」することが求められます。nuScenes および DeepScenario データセットでの大規模な評価により、提案手法がより頑健な回復戦略をもたらすことが示されました。高い再計画頻度において、完全に微分可能なクローズドループ学習と比べて、目標衝突(target collisions)を最大 33.24% 減少させます。さらに、標準的なオープンループのベースラインと比べると、本非微分(non-differentiable)フレームワークは、密な環境において衝突を最大 27.74% 減らすと同時に、多峰性(multi-modal)な予測の多様性とレーン整合(lane alignment)を改善します。

Rectify, Don't Regret:軌道予測における微分可能シミュレーションの落とし穴を回避する | AI Navigate