Abstract
Muonのような直交化更新オプティマイザは、行列値パラメータの学習を改善するが、既存の拡張の多くは、直交化の後に更新を再スケーリングすることで作用するか、あるいは直交化の前に、より重いホワイトニング系の前処理器を用いるかのどちらかである。私たちは、Muon向けの前直交化平衡化(equilibration)手法の軽量なファミリーである{
method}を、3つの形式として導入する:左右の行/列正規化(RC)、行正規化(R)、列正規化(C)。これらの変種は、行/列の二乗ノルム統計に基づいて、有限ステップのNewton--Schulzの前に運動量行列(momentum matrix)を再配分し、補助状態は
mathcal{O}(m+n)のみで済む。有限ステップ直交化は入力のスペクトル特性、特に安定ランク(stable rank)と条件数(condition number)によって支配されること、また行/列正規化は、周辺的なスケールの不一致を取り除く0次のホワイトニング代替(surrogate)であることを示す。{
method}が狙う、隠れ行列の重み(hidden matrix weights)に対しては、行正規化の変種Rが自然なデフォルトであり、Muon型手法が持つ
widetilde{O}(T^{-1/4})の停留性(stationarity)保証を保持する。C4でのLLaMA2事前学習では、デフォルトのR変種が一貫して130Mおよび350MモデルにおいてMuonを上回り、より速い収束と低い検証パープレキシティをもたらす。