Abstract
本論文では、Polyak--Ruppert の平均化確率的勾配降下法(SGD)に対するオンライン共分散行列推定を研究する。Zhu, Chen, and Wu(2023)によるオンライン・バッチ平均(batch-means)推定量は、作用素ノルムにおける収束率 O(n^{-(1-\alpha)/4}) を達成し、最適な学習率指数 \alpha \rightarrow 1/2^+ において O(n^{-1/8}) となる。厳密なブロックごとのバイアス解析により、ブロック成長パラメータを再調整することでバッチ平均の率が O(n^{-(1-\alpha)/3}) に改善され、O(n^{-1/6}) を達成することを示す。修正した推定量はヘッセ行列へのアクセスを不要とし、O(d^2) のメモリを維持する。誤差の分解を、分散、停留(stationarity)バイアス、非線形性(nonlinearity)バイアスの各成分まで完全に与える。さらに、ハードな打ち切りを避ける重み付き平均化(weighted-averaging)変種についても議論する。SGD 軌跡からのヘッセ行列不要(Hessian-free)共分散推定に対して最小最大率
\Theta(n^{-(1-\alpha)/2}) を確立する。Le Cam の下界により
\Omega(n^{-(1-\alpha)/2}) が与えられ、軌跡回帰(trajectory-regression)推定量――すなわち、SGD の更新(increments)を反復(iterates)に回帰することでヘッセ行列を推定する方法――が O(n^{-(1-\alpha)/2}) を達成し、下界と一致する。構成から、ボトルネックは SGD ドリフトからヘッセ行列に関する情報が準線形(sublinear)に蓄積される点にあることが明らかになる。