微分可能なダイナミクスによる軌道および方策最適化のための、テンプルド逐次モンテカルロ

arXiv cs.LG / 2026/4/24

📰 ニュースModels & Research

要点

  • 本論文は、微分可能なダイナミクスの下での有限ホライズンの軌道および方策最適化を、KL正則化した期待軌道コストの最小化として推論問題に置き換え、温度低下で低コスト解へ集中する「ボルツマン・チルト」されたコントローラパラメータ分布を導きます。
  • sharpで多峰性の可能性があるターゲット分布から効率的にサンプリングするために、優先分布からターゲット分布へと温度スケジュールをたどりつつ粒子の再重み付けと再サンプリングを適応的に行うテンプレーテッド逐次モンテカルロ(TSMC)を提案しています。
  • 粒子の多様性を保ちながら勾配情報を活用するために、TSMCではハミルトニアンモンテカルロ(HMC)によるリジュビネーションと、軌道ロールアウトを微分して正確な勾配を得る手法を用います。
  • 方策最適化では、初期状態分布を決定論的に経験分布近似することと、ロールアウトのランダム性を補助変数として扱う拡張空間の構成を導入してTSMCを拡張します。
  • 軌道および方策最適化のベンチマーク実験では、TSMCが広く適用可能であり、最先端のベースラインと比較して良好な性能を示しています。

Abstract

微分可能なダイナミクスのもとで、有限ホライゾンの軌道およびポリシー最適化を行うためのサンプリングベースの枠組みを提案する。具体的には、コントローラ設計を推論問題として定式化することで実現する。特に、KL正則化された期待軌道コストを最小化する。これにより、温度を下げるにつれてコストの低い解に集中する、コントローラパラメータ上の最適な「ボルツマン傾斜(Boltzmann-tilted)」分布が得られる。 この鋭く、場合によっては多峰性である目標分布から効率的にサンプルするために、温度付き逐次モンテカルロ(TSMC)を導入する。TSMCは、事前分布から目標分布へと至るテンパリング経路に沿って粒子の重み付けと再サンプリングを適応的に行うアニーリング手法である。さらに、ハミルトニアンモンテカルロによるリジュベネーションを用いることで多様性を維持し、軌道ロールアウトを通して微分することにより得られる正確な勾配を活用する。 ポリシー最適化のために、TSMCを(i)初期状態分布の決定論的な経験的近似、および(ii)ロールアウトのランダム性を補助変数として扱う拡張空間の構成、の2点により拡張する。軌道およびポリシー最適化のベンチマークにまたがる実験により、TSMCが広く適用可能であり、最先端のベースラインと比べて良好な性能を示すことが分かる。