Muon$^2$: 適応的な2次モーメント前処理によるMuonの強化

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Muonオプティマイザを拡張した Muon$^2$ を提案し、Muonの直交化ステップの前にAdamスタイルの適応的な2次モーメント前処理を追加する。
その主張は、Muonのスローダウンは条件の悪いモーメント行列によって引き起こされており、Muon$^2$はそのスペクトルを大幅に改善することで、実用的な直交性への収束をより速くできる点にある。
GPTおよびLLaMAの事前学習（60M〜1.3Bパラメータ）に関する実験では、Muon$^2$が一貫してMuonおよびより新しいMuonの変種を上回り、Newton–Schulz反復回数を40%削減する。
方位（ディレクショナル）へのアラインメントを用いて直交化品質を評価し、さらにMuon$^2$-Fとして、最小限の追加メモリコストでMuon$^2$の利点の大部分を維持するメモリ効率の高い因数分解版も提案する。

Abstract

Muonは、反復的な直交化によってニューラルネットワーク更新の行列構造を活用することで、大規模基盤モデルの事前学習における有望なオプティマイザとして登場しました。しかし、その実用効率は、各最適化ステップごとに複数回のNewton--Schulz（NS）反復を必要とすることにより制限されており、これが自明ではない計算および通信のオーバーヘッドを生みます。本研究では、直交化の前にAdamスタイルの適応的な2次モーメント前処理を適用するMuonの拡張であるMuon

^2

を提案します。私たちの重要な洞察は、Muonにおける極（polar）近似の根本的な難しさが、条件の悪い運動量行列にあり、Muon

^2

によってそのスペクトルが大幅に改善されることで、実務上十分な直交化に向けた収束がより速くなる点です。さらに、方向整合（directional alignment）によって実用的な直交化品質を特徴付けると、Muon

^2

は各極ステップにおいてMuonに比べて目覚ましい改善を示します。パラメータ数60Mから1.3Bの範囲におけるGPTおよびLLaMAの事前学習実験では、Muon

^2

は一貫してMuonおよび最近のMuonの変種を上回り、NS反復を40\%削減します。さらに、メモリ効率の高い因数分解版であるMuon

^2

-Fを導入します。これは、メモリオーバーヘッドが無視できるにもかかわらず、Muon

^2

の得られる利得の大部分を維持します。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

Muon$^2$: 適応的な2次モーメント前処理によるMuonの強化

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵