制約なしオンライン学習における勾配変動に基づく後悔(Regret)の境界

arXiv stat.ML / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、比較対象(コンパレータ)uに対して、連続する勾配の二乗差を用いて定義される勾配変動項V_T(u)に比例する後悔(regret)スケーリングを保証する、制約なしオンライン学習のパラメータ不要(parameter-free)アルゴリズムを提案する。
  • L-滑らか(L-smooth)な凸損失に対して、
  • Ofの同次項を隠した表記で \widetilde{O}(\|u\|\sqrt{V_T(u)} + L\|u\|^2 + G^4) の完全適応的(fully adaptive)な後悔境界を与える。ここでは \|u\|、 G、 L の事前知識を不要とする。
  • 各オンライン更新は効率的な閉形式計算が可能であり、反復ごとの計算量の観点から実用的である。
  • 結果は動的後悔(dynamic regret)へ拡張され、確率的に拡張された敵対的(SEA)モデルに対して即時の改善をもたらし、Wangら(2025)の従来最良結果を上回る。

要旨: 本稿では、制約なしのオンライン学習に対して、勾配の変動 V_T(u) = \sum_{t=2}^T \|
abla f_t(u)-
abla f_{t-1}(u)\|^2
にスケールする後悔(レグレット)の保証を持つ、パラメータ不要のアルゴリズムを開発する。L-滑らかな凸損失に対して、比較対象のノルム \|u\|、リプシッツ定数 G、または滑らかさ L の事前知識を必要とせずに、
\widetilde{O}(\|u\|\sqrt{V_T(u)} + L\|u\|^2+G^4)
のオーダーのレグレットを達成する完全適応型アルゴリズムを提示する。各ラウンドでの更新は、閉形式の表現によって効率的に計算できる。我々の結果は動的レグレットにも拡張でき、確率的に拡張された敵対者(SEA)モデルに対して直ちに重要な含意を与える。これは、従来の最良既知結果 [Wang et al., 2025] を大きく改善する。