広告

GradPower: より高速な言語モデル事前学習のための勾配を駆動する(GradPower)

arXiv stat.ML / 2026/4/3

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • GradPowerは、勾配に対して符号付き冪(sign-power)の要素ごとの変換を行い、その後に既存のオプティマイザへ渡すことで動作する、軽量な勾配変換手法として提案されており、必要なのは1行のコード変更のみです。
  • 実験により、この手法(AdamPower)をAdamと併用した場合に、複数のLLMアーキテクチャ(LLaMAやQwen2MoEを含む)、モデル規模(66M〜2B)、データセット(C4、OpenWebText)、学習率スケジュールにわたって、終端損失が一貫して改善することが示されています。
  • 得られる最大の効果は、特にウォームアップ安定減衰(warmup-stable-decay)の学習率スケジュールを用いた、最新の混合専門家(Mixture-of-Experts)学習で報告されています。
  • 本手法は他のオプティマイザ(例:Muon)とも互換であると主張されており、性能向上の要因を勾配ノイズの影響と手法の基盤となるメカニズムに帰する理論的分析も含まれています。


要旨:言語モデルの事前学習を加速するための軽量な勾配変換手法であるGradPowerを提案する。勾配ベクトル g=(g_i)_i が与えられたとき、GradPowerはまず要素ごとの符号付きべき乗変換を適用する:

固定の p>0 に対して
。その後、変換された勾配を基底の最適化手法に投入する。注目すべき点として、GradPowerは必要とするのは1行のコード変更のみであり、ハイパーパラメータを含めて基底の最適化手法の内部ロジックにいかなる修正も不要である。Adamに適用した場合(AdamPowerと呼ぶ)、GradPowerは多様なアーキテクチャ(LLaMA、Qwen2MoE)、パラメータ規模(66Mから2B)、データセット(C4、OpenWebText)、学習率スケジュール(cosine、warmup-stable-decay)にわたって一貫して到達終端の損失をより低くすることを達成する。最も顕著な改善は、warmup-stable-decayスケジュールで現代的なMixture-of-Experts(MoE)モデルを学習する際に観測される。さらにGradPowerは、Muonのような他の最先端の最適化手法ともシームレスに統合でき、さらなる改善が得られる。最後に、GradPowerの基礎となるメカニズムを明らかにし、勾配ノイズの影響を強調する理論解析を提示する。

広告