CACTO-SL:Sobolev学習を用いた軌道最適化による連続アクター・クリティックの改善
arXiv cs.RO / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、非凸な最適制御問題をより適切に扱うために、軌道最適化(TO)と連続アクター・クリティック強化学習を組み合わせた、CACTO手法の拡張であるCACTO-SLを提案する。
- CACTO-SLは、微分動的計画法手続きの後方パスから得られる価値関数の勾配を付加することで、クリティックの学習を高速化し、改善する。
- この手法では、俳優(アクター)の方策を用いてTOをウォームスタートし、RLによる探索とTOの洗練との間でクローズドループを維持する。
- 実験結果は、CACTO-SLが元のCACTOよりも効率的であり、TOエピソード数を約3〜10倍削減し、全体の計算時間も短縮することを示している。
- さらに、この手法はTOがより良い極小値へ収束するのを助け、実行間の結果の一貫性も高める。
