連続行動空間におけるActor加速型Policy Dual Averaging

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、連続行動空間における最適化サブ問題を近似するために学習済みポリシーネットワークを使用する、Actor加速型Policy Dual Averaging (PDA) を提案し、実行時間を高速化します。
  • Actorネットワークによる近似誤差にもかかわらず、収束保証を維持します。
  • 著者らは、特定の仮定の下でActor近似誤差がPDAの収束にどのように影響するかを定量化する理論分析を提供します。
  • ロボティクス、制御、オペレーションズ・リサーチのベンチマークにおける実験結果は、Actor加速型PDAがPPOのような人気のオンポリシー・ベースラインより優れていることを示します。
  • この研究は、PDAの理論的利点と連続行動問題における関数近似を用いた実用的展開とのギャップを埋めるものです。
Policy Dual Averaging (PDA) は、標準の PMD よりも値関数近似をより自然に受け入れる原理的な Policy Mirror Descent (PMD) フレームワークを提供し、強力な収束保証を維持しつつ、近似的なアドバンテージ関数(あるいは Q 関数)の使用を可能にします。しかし、連続状態空間および連続行動空間に PDA を適用することは計算的に依然として困難であり、行動選択は各決定ステップで最適化サブ問題を解くことを伴うためです。本論文では、\textit{actor-accelerated PDA} を提案します。これは学習済みのポリシーネットワークを用いて最適化サブ問題の解を近似し、収束保証を維持しつつ実行時間を短縮します。適切な仮定の下で、Actor近似誤差がPDAの収束に及ぼす影響を定量化する理論解析を提供します。続いて、ロボティクス、制御、オペレーションズ・リサーチの問題のいくつかのベンチマークでその性能を評価します。Actor-accelerated PDA は、Proximal Policy Optimization (PPO) のような人気のオンポリシー・ベースラインと比較して優れた性能を達成します。全体として、我々の結果は PDA の理論的利点と、関数近似を用いた連続行動問題への実用的展開とのギャップを埋めるものです。