Muon$^2$: 適応的な2次モーメント前処理によるMuonの強化

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Muonオプティマイザを拡張した Muon$^2$ を提案し、Muonの直交化ステップの前にAdamスタイルの適応的な2次モーメント前処理を追加する。
  • その主張は、Muonのスローダウンは条件の悪いモーメント行列によって引き起こされており、Muon$^2$はそのスペクトルを大幅に改善することで、実用的な直交性への収束をより速くできる点にある。
  • GPTおよびLLaMAの事前学習(60M〜1.3Bパラメータ)に関する実験では、Muon$^2$が一貫してMuonおよびより新しいMuonの変種を上回り、Newton–Schulz反復回数を40%削減する。
  • 方位(ディレクショナル)へのアラインメントを用いて直交化品質を評価し、さらにMuon$^2$-Fとして、最小限の追加メモリコストでMuon$^2$の利点の大部分を維持するメモリ効率の高い因数分解版も提案する。

Abstract

Muonは、反復的な直交化によってニューラルネットワーク更新の行列構造を活用することで、大規模基盤モデルの事前学習における有望なオプティマイザとして登場しました。しかし、その実用効率は、各最適化ステップごとに複数回のNewton--Schulz(NS)反復を必要とすることにより制限されており、これが自明ではない計算および通信のオーバーヘッドを生みます。本研究では、直交化の前にAdamスタイルの適応的な2次モーメント前処理を適用するMuonの拡張であるMuon^2を提案します。私たちの重要な洞察は、Muonにおける極(polar)近似の根本的な難しさが、条件の悪い運動量行列にあり、Muon^2によってそのスペクトルが大幅に改善されることで、実務上十分な直交化に向けた収束がより速くなる点です。さらに、方向整合(directional alignment)によって実用的な直交化品質を特徴付けると、Muon^2は各極ステップにおいてMuonに比べて目覚ましい改善を示します。パラメータ数60Mから1.3Bの範囲におけるGPTおよびLLaMAの事前学習実験では、Muon^2は一貫してMuonおよび最近のMuonの変種を上回り、NS反復を40\%削減します。さらに、メモリ効率の高い因数分解版であるMuon^2-Fを導入します。これは、メモリオーバーヘッドが無視できるにもかかわらず、Muon^2の得られる利得の大部分を維持します。