制約なし線形バンディットに対するパラメータ不要のダイナミック・リグレット

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習者が、点評価フィードバックのみを用いて、任意の時変コンパレータ系列に対して競合するという状況での、制約なしの逆境的（adversarial）線形バンディットにおけるダイナミック・リグレット最小化を扱う。
コンパレータの切り替え回数 $S_T$ に自動的に適応するために、複数のバンディットアルゴリズムの保証を組み合わせる単純な手法を導入し、事前に $S_T$ の知識を要求しないことを示す。
本研究は、（多項ログ的因子までの）$\mathcal{O}(\sqrt{d(1+S_T)T})$ という最適なリグレット率を達成する、初めての線形バンディットアルゴリズムを主張する。
得られた結果は、本分野における長年の未解決問題を解決するものとして位置づけられ、非定常環境に対する理論的に最適な性能を向上させる。
次元数 $d$、時間幅 $T$、および切り替え回数 $S_T$ への最適な依存関係を一致させることで、本アプローチは逆境的設定におけるダイナミックな意思決定のための理論的ツールキットを強化する。

ldots,oldsymbol{u}_T $は$
mathbb{R}^d $の元です。しかし、各ラウンドで得られるのは点評価のフィードバックのみです。複数のバンディットアルゴリズムの保証を組み合わせ、任意の比較対象列のスイッチ回数$ S_T =
sum_tnmathbb{I}
{oldsymbol{u}_t
eq oldsymbol{u}_{t-1}
} $に対して最適に適応できるようにする、単純なアプローチを提示します。具体的には、線形バンディットにおいて、事前に$ S_T $を知ることなく、劣らず$
mathcal{O}ig(
sqrt{d(1+S_T) T}ig)$ の次数の最適なレグレット保証を達成する最初のアルゴリズムを提示します。これにより、長年未解決だったオープン問題が解決されます。