Averaged SGDにおけるオンライン共分散推定:軌道回帰による改善されたバッチ平均率と最小最大(ミニマックス)最適性

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Polyak–Ruppert平均化SGDに対するオンライン共分散行列推定を研究し、既存のバッチ平均(batch-means)推定量の演算子ノルムにおける収束を解析する。
  • 厳密なブロックごとのバイアス分析と、ブロック成長パラメータの再チューニングにより、著者らはバッチ平均率をO(n^{-(1-α)/4})からO(n^{-(1-α)/3})へ改善し、最適レジームではO(n^{-1/6})を達成する。
  • 提案する修正推定量はハessianフリー(ヘッシアンへのアクセスなし)でありつつ、O(d^2)のメモリ使用量を維持し、分散、定常性バイアス、非線形性バイアスに対する完全な誤差分解を含む。
  • さらに、本研究はハードな打ち切り(truncation)を避けるための加重平均(weighted-averaging)変種を導入し、Le Camの下界と、SGDの軌道ドリフトからヘッシアンを推定してそれに一致する軌道回帰推定量を用いて、ミニマックス最適な率Θ(n^{-(1-α)/2})を証明する。

Abstract

本論文では、Polyak--Ruppert の平均化確率的勾配降下法(SGD)に対するオンライン共分散行列推定を研究する。Zhu, Chen, and Wu(2023)によるオンライン・バッチ平均(batch-means)推定量は、作用素ノルムにおける収束率 O(n^{-(1-\alpha)/4}) を達成し、最適な学習率指数 \alpha \rightarrow 1/2^+ において O(n^{-1/8}) となる。厳密なブロックごとのバイアス解析により、ブロック成長パラメータを再調整することでバッチ平均の率が O(n^{-(1-\alpha)/3}) に改善され、O(n^{-1/6}) を達成することを示す。修正した推定量はヘッセ行列へのアクセスを不要とし、O(d^2) のメモリを維持する。誤差の分解を、分散、停留(stationarity)バイアス、非線形性(nonlinearity)バイアスの各成分まで完全に与える。さらに、ハードな打ち切りを避ける重み付き平均化(weighted-averaging)変種についても議論する。SGD 軌跡からのヘッセ行列不要(Hessian-free)共分散推定に対して最小最大率 \Theta(n^{-(1-\alpha)/2}) を確立する。Le Cam の下界により \Omega(n^{-(1-\alpha)/2}) が与えられ、軌跡回帰(trajectory-regression)推定量――すなわち、SGD の更新(increments)を反復(iterates)に回帰することでヘッセ行列を推定する方法――が O(n^{-(1-\alpha)/2}) を達成し、下界と一致する。構成から、ボトルネックは SGD ドリフトからヘッセ行列に関する情報が準線形(sublinear)に蓄積される点にあることが明らかになる。