広告

MuonEq:直交化の前でバランスを取る—軽量な等化(Equilibration)

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Muon のような直交化更新オプティマイザ向けに、有限ステップの Newton–Schulz 直交化の直前に位置づけられる軽量な事前直交化等化(pre-orthogonalization equilibration)手法群 MuonEq を提案する。
  • MuonEq は、3つの変種(二側 RC、行のみ R、列のみ C)によって、単純な行/列の二乗ノルム統計を用いて運動量行列を再バランスし、補助状態として O(m+n) だけを要求する。
  • 著者らは、有限ステップ直交化の有効性が、入力行列のスペクトル特性、特に安定ランクと条件数に依存することを示し、最適化挙動を明確な線形代数的要因と結びつける。
  • 行/列正規化を、スケール不一致を緩和する「ゼロ次(zeroth-order)ホワイトニングの代替」として特徴づけ、隠れた重み行列に対しては、行正規化版 R が自然なデフォルトであると論じる。
  • C4 での LLaMA2 事前学習に関する実験では、デフォルトの R 変種が、130M および 350M モデルのすべてでベースラインの Muon を一貫して上回り、収束が速く検証パープレキシティも低いことが報告される。

Abstract

Muonのような直交化更新オプティマイザは、行列値パラメータの学習を改善するが、既存の拡張の多くは、直交化の後に更新を再スケーリングすることで作用するか、あるいは直交化の前に、より重いホワイトニング系の前処理器を用いるかのどちらかである。私たちは、Muon向けの前直交化平衡化(equilibration)手法の軽量なファミリーである{ method}を、3つの形式として導入する:左右の行/列正規化(RC)、行正規化(R)、列正規化(C)。これらの変種は、行/列の二乗ノルム統計に基づいて、有限ステップのNewton--Schulzの前に運動量行列(momentum matrix)を再配分し、補助状態は mathcal{O}(m+n)のみで済む。有限ステップ直交化は入力のスペクトル特性、特に安定ランク(stable rank)と条件数(condition number)によって支配されること、また行/列正規化は、周辺的なスケールの不一致を取り除く0次のホワイトニング代替(surrogate)であることを示す。{ method}が狙う、隠れ行列の重み(hidden matrix weights)に対しては、行正規化の変種Rが自然なデフォルトであり、Muon型手法が持つ widetilde{O}(T^{-1/4})の停留性(stationarity)保証を保持する。C4でのLLaMA2事前学習では、デフォルトのR変種が一貫して130Mおよび350MモデルにおいてMuonを上回り、より速い収束と低い検証パープレキシティをもたらす。

広告