勾配トラッキング付き分散確率最適化における高確率収束

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、分散型の確率的最適化における高確率(HP)収束保証を扱い、MSE(平均二乗誤差)での利点をHPの枠組みに拡張することに焦点を当てている。
  • 既存の分散最適化のHP結果は、データの不均一性が有界であることや各エージェントのコストが強凸であることなど、厳しい仮定に依存しがちである一方、バイアス補正の考え方を組み込む手法はMSEではより緩い条件でも収束できると主張している。
  • 著者らは、ノイズが緩和されたサブガウス条件を満たす場合において、勾配トラッキングを組み込んだ分散SGD(GT-DSGD)を解析する。
  • 非凸目的関数とPolyak–Łojasiewicz(PL)コストの双方について、高確率での到達に関する位数最適な収束レートを証明し、信頼度に関する対数因子を除けばMSEレジームと整合する依存性を示している。
  • 実データと合成データでの数値実験により理論が裏付けられ、GT-DSGDが優れた実用性能を示しつつ、HPの文脈でもバイアス補正の効果が維持されることが強調されている。

要旨: 本研究では、複数のエージェントがネットワーク上で協調してモデルを学習する分散型確率最適化において、高確率(HP)収束の保証を解析します。分散型の設定における既存のHP結果はほぼ例外なく、分散型確率的勾配降下法(\mathtt{DSGD})に焦点を当てており、データの異質性が有界であることや、各エージェントのコストが強凸であることのような強い仮定を必要とします。これは、バイアス補正の技術を取り入れた手法が、緩和された仮定の下で収束し、より良い実用性能を達成することが知られている平均二乗誤差(MSE)の結果とは対照的です。本論文では、そのギャップを埋めるための最初の一歩として、緩和されたサブガウス条件を満たすノイズのもとで、勾配追跡(gradient tracking)技術を組み込んだ
\mathtt{DSGD}
のHP収束を調べます。得られた手法は
\mathtt{GT-DSGD}
と呼ばれ、非凸およびPolyak-
\L{}ojasiewiczコストの双方に対し、順序最適のHP収束率、すなわちそれぞれ
\mathcal{O}\Big(\frac{\log(1/\delta)}{\sqrt{nT}}\Big)
および
\mathcal{O}\Big(\frac{\log(1/\delta)}{nT}\Big)
を達成することを示します。ここでnはエージェント数、Tは時間範囲、
\delta \in (0,1)
は信頼度パラメータです。本結果は、MSEの意味でのコストに関する同じ条件のもとで、
\mathtt{GT-DSGD}
がHPの意味でも収束することを示し、さらに同程度の過渡時間を達成します。筆者らの知る限り、バイアス補正を取り入れた分散型最適化手法に対する最初のHP保証です。実データおよび合成データに対する数値実験により、理論的知見が検証され、
\mathtt{GT-DSGD}
の優れた性能が裏付けられるとともに、バイアス補正を取り入れることの利点がHPの意味でも維持されることが強調されます。