ニュートン=ムオン・オプティマイザ

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ムオン・オプティマイザの行列勾配直交化の設計原理を解明するために、損失を、重み行列Wに対する摂動に関する二次関数で近似するサロゲートモデルを提案し、その導出から新しい最適化手法を得ています。
  • このサロゲートは、勾配G、出力空間の曲率行列H、そしてレイヤ入力を縦に積んだデータ行列Zの「3つの行列」だけで近似を行い、更新則は(モーメンタムとウェイトデケを除く)閉形式として $W \leftarrow W - \eta \cdot \mathrm{msgn}(G(ZZ^\top)^{-1})$ で与えられます。
  • 提案手法Newton-Muonは、標準Muonが入力の二次モーメントが生む右側プレコンディショニングを暗黙に無視したニュートン型の方法として解釈できることを示しています。
  • 実験では、GPT-2のpretrainingにおいてMuonを用いたModded-NanoGPTの公開設定を再現したところ、目標の検証損失到達までのイテレーション数が約6%減少し、学習のウォールクロック時間も約4%短縮されたと報告しています。

Abstract

ミューオン・オプティマイザは、大規模言語モデルの学習において強力な性能を示すことから、かなり注目を集めてきました。しかし、行列勾配の直交化に関する設計原理は、いまだにほとんど解明されていません。本論文では、ミューオンの設計に新たな光を当てるだけでなく、より重要な点として、新しいオプティマイザにつながる代理モデル(サロゲートモデル)を導入します。ニュートン法の導出と同じ精神に基づき、代理モデルは、重み行列 W への摂動に対する損失を、3つの行列だけを用いて(すなわち)勾配 G、出力空間における曲率行列 H、そして層への入力を縦に積み重ねたデータ行列 Z を用いて、二次関数として近似します。この代理モデルを1ステップで最小化し、重みに対してある等方的(アイソトロピック)仮定を採用することで、閉形式の更新則(運動量と weight decay を除く)W \leftarrow W - \eta \cdot \mathrm{msgn}(G(ZZ^\top)^{-1}) が得られます。ここで eta は学習率であり、コンパクト特異値分解 X=USV^\top に対して mathrm{msgn}(X)=UV^\top です。この新しい最適化手法を Newton-Muon と呼びます。これは、標準的なミューオンが、入力の2次モーメントによって誘起される右側の前処理を無視する、暗黙的なニュートン型手法として解釈できることを示します。実験的には、GPT-2 の事前学習において Muon を用いた、最も初期に公開された Modded-NanoGPT speedrun 構成の再現により、Newton-Muon は目標の検証損失に到達するまでに 6少ない反復ステップ数で済み、ウォールクロックの学習時間を約 4% 削減します。