文脈バンディットにおけるベストインクラスの高速な後悔(regret)
arXiv stat.ML / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、確率的文脈バンディットの「エイゴスティック(非実現可能)」設定において、損失・報酬に制約を課さずに、クラス内の最良方策(best-in-class)に対する後悔(regret)を達成する問題を扱っています。
- すべてのラウンドで悲観的(pessimistic)目的関数を最小化して方策を更新し、その目的は、クリップ付き逆確率重み付け(clipped inverse-propensity estimate)による方策価値に分散ペナルティを加えた形になっています。
- 方策クラスに対するエントロピー仮定と、マージン条件の一般化であるHölder型の誤差境界条件を用いることで、best-in-classに対する「最初の高速率(first fast rate)」の後悔保証を示しています。
- 分析では、適応的なデータ収集下でも悲観性を保証するために、bounded martingale empirical processesに対する逐次自己正規化の最大不等式を用いて、一様に分散適応的な信頼区間を構築しています。



