広告

CACTO-SL:Sobolev学習を用いた軌道最適化による連続アクター・クリティックの改善

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、非凸な最適制御問題をより適切に扱うために、軌道最適化(TO)と連続アクター・クリティック強化学習を組み合わせた、CACTO手法の拡張であるCACTO-SLを提案する。
  • CACTO-SLは、微分動的計画法手続きの後方パスから得られる価値関数の勾配を付加することで、クリティックの学習を高速化し、改善する。
  • この手法では、俳優(アクター)の方策を用いてTOをウォームスタートし、RLによる探索とTOの洗練との間でクローズドループを維持する。
  • 実験結果は、CACTO-SLが元のCACTOよりも効率的であり、TOエピソード数を約3〜10倍削減し、全体の計算時間も短縮することを示している。
  • さらに、この手法はTOがより良い極小値へ収束するのを助け、実行間の結果の一貫性も高める。

Abstract

trajectory Optimization(TO)と強化学習(RL)は、最適制御問題を解くための強力かつ補完的な手法である。一方で、TOは局所的に最適な解を効率よく計算できるが、問題が凸でない場合には局所的な最小値に行き詰まりがちである。もう一方で、RLは一般に非凸性への感度が低いが、その代わりに計算努力ははるかに大きくなる。最近、我々はCACTO(Continuous Actor-Critic with Trajectory Optimization)を提案した。これはTOを用いてアクター・クリティック型RLアルゴリズムの探索を導く手法である。さらに、アクターによって符号化された方策を用いてTOをウォームスタートすることで、TOとRLの間のループを閉じる。 本研究では、Sobolev学習の考え方を活用したCACTOの拡張を提示する。批評家(クリティック)ネットワークの学習をより高速かつデータ効率良くするために、微分動的計画法アルゴリズムの後ろ向きのパスによって計算される価値関数の勾配を、それに付加する。我々の結果は、新しいアルゴリズムが元のCACTOよりも効率的であり、TOエピソード数を3倍から10倍の範囲で削減し、その結果計算時間も削減できることを示す。さらに、CACTO-SLがTOにより良い極小値を見つけさせ、より一貫した結果を生み出すのに役立つことも示す。

広告