KL正則化付きオフライン多腕バンディットにおける最適サンプル複雑度について

arXiv stat.ML / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、KL正則化された性能指標で評価するオフライン学習において、多腕バンディットのサンプル複雑度が十分に特徴づけられていない点を明らかにすることを目的としています。
  • 「KL-PCB」について鋭い解析を行い、KL正則化の強さηが大きい場合と小さい場合でサンプル複雑度のスケーリングが変わることを示します。
  • 大きな正則化(η = ˜O(ε⁻¹))では、サンプル複雑度が ˜O(η·S·A·C^{π*}/ε) となる一方、小さな正則化(η = ˜Ω(ε⁻¹))では ˜O( S·A·C^{π*}/ε²) が必要になると述べています。
  • さらに、正則化強度ηの全範囲にわたって上界と一致する、より鋭い下界も導出し、KL正則化付きオフライン多腕バンディットをほぼ完全に特徴づける成果となっています。

Abstract

クルバック・ライブラー(KL)正則化は、オフラインの意思決定に広く用いられており、いくつかの利点があります。そのため、KLで正則化されたパフォーマンス指標に関する、オフライン学習のサンプル計算量(sample complexity)に関する最近の研究が動機づけられています。それにもかかわらず、KLで正則化されたオフライン学習における正確なサンプル計算量は、十分に完全に特徴づけられているわけではありません。本論文では、この問題を多腕バンディット(MABs)の設定で調べます。大きな正則化 eta = O(epsilon^{-1}) のもとで、KL-PCB(Zhao et al., 2026)がサンプル計算量 O(eta SAC^{pi^*}/epsilon) を達成し、小さな正則化 eta = Omega(epsilon^{-1}) のもとでサンプル計算量 Omega(SAC^{pi^*}/epsilon^2) を持つことを示す、鋭い分析を与えます。ここで eta は正則化パラメータ、S はコンテキスト数、A は腕の数、pi^* が最適方策であるときの政策被覆係数 C^{pi^*}epsilon は望ましいサブ最適性(desired sub-optimality)であり、OOmega はすべての多項対数因子(poly-logarithmic factors)を隠します。さらに、正則化強度の全範囲にわたって上界と一致する、一対のより鋭いサンプル計算量の下界も提示します。全体として、我々の結果は、KL正則化を用いるオフライン多腕バンディットをほぼ完全に特徴づけるものです。