強化学習に基づく純追従（Pure Pursuit）による強化的ルックアヘッド距離の動的調整による自律レース

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、純追従（Pure Pursuit）による経路追従における中核的な制約として、固定されたルックアヘッド距離の選定に大きく依存する点を扱う。この距離は、コーナリングの安定性と曲率追従の精度との間でトレードオフを生む。
速度と複数ホライゾンの曲率特徴を用いてPPO強化学習エージェントがルックアヘッド距離を動的に出力し、古典的な純追従コントローラが追従を担当するハイブリッド制御器を提案する。
学習はStable-Baselines3を用い、F1TENTH GymシミュレータでPPOの安定化手法（KLペナルティ、学習率減衰）を適用して行い、実機での運用はROS2ベースのシステムで実施する。
シミュレーションおよび予備的な実車テストにより、周回タイムの改善と、未観測トラックでの周回の反復における信頼性向上が示される。観察された挙動として、直線ではルックアヘッドが増加し、曲線では減少することが確認される。
この手法は、1:10スケールの自律レースプラットフォームでのsim-to-real（シミュレーションから実環境への移転）を実証し、学習されたルックアヘッド適応が再学習なしで新しいトラックやハードウェアにも一般化できること（「ゼロショット」転移）を示唆する。