Abstract
Lattimore(2026)による連続時間k-腕確率的バンディットに対するポリシー勾配の解析を、標準的な離散時間の枠組みに適用します。連続時間の場合と同様に、学習率 = O(\Delta_{min}^2/(\Delta_{max} \log(n))) によって、後悔(regret)が O(k \log(k) \log(n) / \u007f) となることを示します。ここで n はホライズンで、\Delta_{min} と \Delta_{max} はそれぞれ最小および最大のギャップです。


