要旨:言語モデルの事前学習を加速するための軽量な勾配変換手法であるGradPowerを提案する。勾配ベクトル g=(g_i)_i が与えられたとき、GradPowerはまず要素ごとの符号付きべき乗変換を適用する:
固定の p>0 に対して。その後、変換された勾配を基底の最適化手法に投入する。注目すべき点として、GradPowerは必要とするのは1行のコード変更のみであり、ハイパーパラメータを含めて基底の最適化手法の内部ロジックにいかなる修正も不要である。Adamに適用した場合(AdamPowerと呼ぶ)、GradPowerは多様なアーキテクチャ(LLaMA、Qwen2MoE)、パラメータ規模(66Mから2B)、データセット(C4、OpenWebText)、学習率スケジュール(cosine、warmup-stable-decay)にわたって一貫して到達終端の損失をより低くすることを達成する。最も顕著な改善は、warmup-stable-decayスケジュールで現代的なMixture-of-Experts(MoE)モデルを学習する際に観測される。さらにGradPowerは、Muonのような他の最先端の最適化手法ともシームレスに統合でき、さらなる改善が得られる。最後に、GradPowerの基礎となるメカニズムを明らかにし、勾配ノイズの影響を強調する理論解析を提示する。



