確率的バンディットに対するソフトマックス方策勾配のリヤプノフ解析

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、離散時間における確率的多腕バンディットに対するソフトマックス方策勾配法について、既存の連続時間結果を適応しつつ、リヤプノフに基づく理論的解析を行う。
特定の学習率の選び方のもとで損失（レグレット）の上界を確立し、その性能を、最小／最大の行動価値のギャップ（$\Delta_{min}$, $\Delta_{max}$）と地平線（$n$）に結び付ける。
提案する学習率スケジュールは $\eta = O\big(\Delta_{min}^2/(\Delta_{max}\log(n))\big)$ として与えられており、導出されるレグレット保証の中心となる。
得られるレグレットは $O(k\log(k)\log(n)/\eta)$ と示され、ここで $k$ は腕の本数を表し、問題構造と訓練時間への明示的な依存性が得られる。
全体として、本研究はリヤプノフ解析という安定性型の証明手法を用いることで、ソフトマックス方策勾配が確率的バンディット問題でどのように振る舞うかに関する理論的理解を強化する。

Lattimore（2026）による連続時間

k

-腕確率的バンディットに対するポリシー勾配の解析を、標準的な離散時間の枠組みに適用します。連続時間の場合と同様に、学習率

 = O(\Delta_{min}^2/(\Delta_{max} \log(n)))

によって、後悔（regret）が

O(k \log(k) \log(n) / \u007f)

となることを示します。ここで

n

はホライズンで、

\Delta_{min}

と

\Delta_{max}

はそれぞれ最小および最大のギャップです。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to