ベイズ方策勾配およびアクター・クリティックアルゴリズム

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、政策勾配推定をガウス過程としてモデル化することで、推定量の分散を抑え、少ないサンプルでの収束を速めるベイズ的な方策勾配フレームワークを提案している。
  • さらに、自然勾配の推定と、勾配推定の不確実性を表す勾配共分散による定量化を、追加コストをほとんどかけずに提供する。
  • この手法はシステムの軌跡を基本の観測単位として扱うため、部分観測問題に拡張可能だが、環境がマルコフ的であってもマルコフ性を活用できないという欠点がある。
  • その制約に対処するため、Gaussian過程の時間差学習に基づく非パラメトリックなベイズ型クリティックを用いた新しいベイズ型アクター・クリティック学習モデルを導入する。
  • 提案手法のベイズ方策勾配およびベイズ型アクター・クリティックを、モンテカルロに基づく従来の方策勾配法と詳細に比較し、複数の強化学習課題で有効性を検証している。