微分可能なダイナミクスによる軌道および方策最適化のための、テンプルド逐次モンテカルロ
arXiv cs.LG / 2026/4/24
📰 ニュースModels & Research
要点
- 本論文は、微分可能なダイナミクスの下での有限ホライズンの軌道および方策最適化を、KL正則化した期待軌道コストの最小化として推論問題に置き換え、温度低下で低コスト解へ集中する「ボルツマン・チルト」されたコントローラパラメータ分布を導きます。
- sharpで多峰性の可能性があるターゲット分布から効率的にサンプリングするために、優先分布からターゲット分布へと温度スケジュールをたどりつつ粒子の再重み付けと再サンプリングを適応的に行うテンプレーテッド逐次モンテカルロ(TSMC)を提案しています。
- 粒子の多様性を保ちながら勾配情報を活用するために、TSMCではハミルトニアンモンテカルロ(HMC)によるリジュビネーションと、軌道ロールアウトを微分して正確な勾配を得る手法を用います。
- 方策最適化では、初期状態分布を決定論的に経験分布近似することと、ロールアウトのランダム性を補助変数として扱う拡張空間の構成を導入してTSMCを拡張します。
- 軌道および方策最適化のベンチマーク実験では、TSMCが広く適用可能であり、最先端のベースラインと比較して良好な性能を示しています。


