SignSGDの改善:スモールバッチ収束解析とハイブリッド切替戦略

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、1ビット量子化とダザリング(dithering)の観点からSignSGDを再検討し、勾配の大きさ情報を失うことに起因する、調整済みSGDに対する一般化ギャップに対処する3つの改善を提案している。
  • 片側の大バッチ仮定を取り除き、信号対雑音を重み付けした停留(stationarity)指標を用いることで、単峰対称な勾配ノイズ下におけるSignSGDのスモールバッチ収束率を導出している。
  • さらに、符号演算の直前にアニーリングしたガウスノイズを注入し、古典的ダザリングとしてハードしきい値化で失われた大きさ情報を確率的にある程度復元する。
  • そして、投影ベースの学習率キャリブレーションによって符号更新に合わせてSWATSを適応し、SignSGDからSGDへと滑らかに遷移させるハイブリッド切替を実現している。
  • ResNet-18で単一ワーカー実験を行い通信要因を切り離した結果、符号前ダザリングはCIFAR-100でAdamを上回り、キャリブレーション付きの切替戦略はCIFAR-10で92.18%のテスト精度を達成し、純粋SGD(91.38%)とSignSGD(モメンタム付き、90.82%)の両方を上回った。

Abstract

SignSGDは各確率的勾配の座標を1ビットに圧縮し、メモリと通信の大幅な削減を可能にしますが、1ビット量子化は大きさ(マグニチュード)の情報を失わせ、十分に調整されたSGDに比べて一般化ギャップを残すことが知られています。本稿では、1ビット量子化とダザリング(dithering)の観点からSignSGDを再検討し、3つの改善を提案します。第一に、信号対雑音を重み付けした停留性(stationarity)指標を用いて、単峰的で対称な勾配ノイズの下でSignSGDの小バッチ収束率を導出し、従来解析の大バッチ仮定を取り除きます。第二に、符号演算子の前にアニール(annealed)したガウス雑音を注入します。これは古典的なダザリング機構として働き、ハードなしきい値化によって失われたマグニチュード情報を確率的に復元します。第三に、SWATS戦略を符号ベースの更新に適応し、射影(projection)に基づく学習率キャリブレーションによってSignSGDからSGDへ滑らかに移行します。ResNet-18に対する単一ワーカの実験では、通信面の影響から最適化器の効果を切り離します:符号化の前のダザリングはCIFAR-100でAdamを上回り、キャリブレーションされた切替はCIFAR-10で92.18%のテスト精度に到達し、純粋なSGDの91.38%と、モメンタム付きの純粋なSignSGDの90.82%の両方を上回ります。