KL正則化付きオフライン多腕バンディットにおける最適サンプル複雑度について

arXiv stat.ML / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、KL正則化された性能指標で評価するオフライン学習において、多腕バンディットのサンプル複雑度が十分に特徴づけられていない点を明らかにすることを目的としています。
「KL-PCB」について鋭い解析を行い、KL正則化の強さηが大きい場合と小さい場合でサンプル複雑度のスケーリングが変わることを示します。
大きな正則化（η = ˜O(ε⁻¹)）では、サンプル複雑度が ˜O(η·S·A·C^{π*}/ε) となる一方、小さな正則化（η = ˜Ω(ε⁻¹)）では ˜O( S·A·C^{π*}/ε²) が必要になると述べています。
さらに、正則化強度ηの全範囲にわたって上界と一致する、より鋭い下界も導出し、KL正則化付きオフライン多腕バンディットをほぼ完全に特徴づける成果となっています。

Abstract

クルバック・ライブラー（KL）正則化は、オフラインの意思決定に広く用いられており、いくつかの利点があります。そのため、KLで正則化されたパフォーマンス指標に関する、オフライン学習のサンプル計算量（sample complexity）に関する最近の研究が動機づけられています。それにもかかわらず、KLで正則化されたオフライン学習における正確なサンプル計算量は、十分に完全に特徴づけられているわけではありません。本論文では、この問題を多腕バンディット（MABs）の設定で調べます。大きな正則化

eta = O(epsilon^{-1})

のもとで、KL-PCB（Zhao et al., 2026）がサンプル計算量

O(eta SAC^{pi^*}/epsilon)

を達成し、小さな正則化

eta = Omega(epsilon^{-1})

のもとでサンプル計算量

Omega(SAC^{pi^*}/epsilon^2)

を持つことを示す、鋭い分析を与えます。ここで

eta

は正則化パラメータ、

S

はコンテキスト数、

A

は腕の数、

pi^*

が最適方策であるときの政策被覆係数

C^{pi^*}

、

epsilon

は望ましいサブ最適性（desired sub-optimality）であり、

O

と

Omega

はすべての多項対数因子（poly-logarithmic factors）を隠します。さらに、正則化強度の全範囲にわたって上界と一致する、一対のより鋭いサンプル計算量の下界も提示します。全体として、我々の結果は、KL正則化を用いるオフライン多腕バンディットをほぼ完全に特徴づけるものです。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/5Dailyインサイトを見る →

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

Dev.to

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

Dev.to

MCPアノテーションはセキュリティ層ではなくUX層

Dev.to

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Dev.to

KL正則化付きオフライン多腕バンディットにおける最適サンプル複雑度について

要点

Abstract

💡 この記事が使われたインサイト

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

MCPアノテーションはセキュリティ層ではなくUX層

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer