正規化トランスフォーマにおける学習率転移

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、正規化トランスフォーマ(nGPT)が重み減衰や学習率ウォームアップなしでも学習を高速化できる一方で、モデルサイズ(次元)やトークンのホライズンにまたがって学習率が適切に転移しないことを指摘しています。
  • この課題を解決するために、著者らはμP(平均場理論)に基づくハイパーパラメータ転移の考え方を見直し、アラインメント・エクスポーネントを用いて修正し、数値実験と理論を組み合わせています。
  • その結果として、nGPTの新しいパラメータ化であるνGPT(ニュー・nGPT)が提案され、学習率設定のスケーリング性を高めることを目的としています。
  • 広範な実験により、νGPTは幅(width)、深さ(depth)、およびトークンホライズンの各方向で学習率転移が成立することが示されています。
  • 総じて本研究は、トランスフォーマ学習における最適化ハイパーパラメータの“スケール間での転用性”を高める具体的なパラメータ化戦略を提供します。