Muonを超えて: MUD（MomentUm Decorrelation）による高速なトランスフォーマー学習

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MUD（MomentUm Decorrelation）はMuonに対する補完的なホワイトニング手法として導入され、Muon の polar 更新を Gram-Schmidt と Gauss-Seidel に触発された三角形ホワイトニングの代替手法へ置換する。
本論文は、行直交行列が MUD マップの固定点であることを証明し、内部ステップを Gram 行列の対称 Gauss-Seidel 前処理に関連付け、固定点の近傍で二次局所収束を確立する。
実験結果は、調整済み AdamW および Muon に対して、パープレキシティ到達までの壁時計時間を 10–50% 短縮し、ピーク時のトークン/秒が 1.3–2.6 倍、GPT-2 large では A100 上で最大 3 倍となる。
この手法は、ESM-2 150M のタンパク質言語モデルの学習で実証され、MUD は Muon レベルの検証パープレキシティに相当する性能を、かなり短い壁時計時間で達成する。

要旨: Muon のような直交化モーメンタム最適化器は、短い極分解イテレーションを介して、行列値モーメンタム更新をほぼホワイトニング/直交化することにより、トランスフォーマーの訓練を改善します。しかし、極因子近似は通常、複数の大規模な行列乗算を必要とし、その結果のオーバーヘッドはかなり大きく、ハードウェア依存性が高くなることがあります。我々は MUD（MomentUm Decorrelation）を導入します。これは Muon の極更新を、古典的なグラム-シュミットおよびガウス-ザイデルの考え方に触発された三角行列（コレスキー風）ホワイトニング代理手法に置換する補完的なホワイトニング手法です。行直交行列が MUD 写像の不動点であることを示し、内部ステップをグラム矩陣の対称ガウス-ザイデル前処理に関連づけ、不動点の近傍で二次的局所収束を証明します。パープレキシティまでの実時間の観点では、MUD は調整済み AdamW および Muon に対して、10-50% の実時間改善を一貫して提供します。通常、Muon よりは各ステップの収束がわずかに遅くなるものの、オプティマイザのオーバーヘッドは大幅に低くなります。Muon と比較して、ほとんどの設定でピークトークン/秒を約 1.3-2.6 倍向上させ、A100 上の GPT-2 Large ではほぼ 3 倍に達します。さらに、ESM-2 150M タンパク質言語モデルの訓練を示し、MUD が Muon レベルの検証パープレキシティと同等の値を、はるかに短い実時間で達成することを示します。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Muonを超えて: MUD（MomentUm Decorrelation）による高速なトランスフォーマー学習

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer