HTMuon: Heavy-Tailed Spectral Correctionによる Muon の改善
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- HTMuon は、HT-SR 理論に触発された重尾スペクトル補正を適用することで Muon を拡張した新しい最適化手法で、LLM の訓練を改善します。
- Muon のパラメータ間の依存関係を捉える能力を保ちつつ、より重い尾部を持つ更新とウェイトスペクトルを生み出すことで、ノイズに支配される方向を過度に強調する問題に対処します。
- 経験的な結果は、HTMuon が LLM の事前学習および画像分類の性能を最先端のベースラインより一貫して向上させ、既存の Muon バリアントの上にプラグインとしても機能することができる(例:C4 データセットで Muon に比べ LLaMA のパープレキシティを最大 0.98 減少させる)。
- 本論文は理論的洞察を提供し、HTMuon を Schatten-$q$ ノルム制約下の最急降下法に関連付け、収束解析を提示しており、実装は GitHub で公開されています。
本文: arXiv:2603.10067v1 アナウンス種別: cross 要旨: Muon は最近、LLM 訓練で有望な結果を示しています。本研究では、Muon をさらに改善する方法を検討します。 Muon の直交化された更新規則は、重尾のウェイトスペクトルの出現を抑制し、ノイズに支配された方向への訓練を過度に強調してしまうと主張します。 Heavy-Tailed Self-Regularization (HT-SR) 理論に動機づけられ、HTMuon を提案します。 HTMuon は Muon がパラメータ間の依存関係を捉える能力を維持しつつ、より重い尾部の更新を生み出し、より重い尾部のウェイトスペクトルを誘発します。 LLM の事前学習および画像分類の実験は、HTMuon が最先端のベースラインより一貫して性能を向上させ、既存の Muon バリアントの上にプラグインとしても機能できることを示します。例えば、C4 データセット上の LLaMA の事前学習において、HTMuon は Muon と比較してパープレキシティを最大で $0.98$ 減少させます。 さらに、HTMuon が Schatten-$q$ ノルム制約下での最急降下法に対応することを理論的に示し、滑らかな非凸設定における収束解析を提供します。 HTMuon の実装は https://github.com/TDCSZ327/HTmuon に公開されています。




