AdamWのワンライン置き換えとして使えるAutoMuonを紹介

Reddit r/MachineLearning / 2026/4/26

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 提案者は、PyTorchの任意の学習パイプラインでMuonオプティマイザをAdamWのドロップイン代替として使えるPythonパッケージ「AutoMuon」を紹介しています。
  • AutoMuonは初期化時にモデルをスキャンし、パラメータごとに適切なオプティマイザを自動選択します。これはMuonが主に2次元の重み行列に向いている一方、埋め込み・ノルム・バイアスなどにはAdamWが必要だからです。
  • プロジェクトはトランスフォーマーやCNN以外にも適用できる可能性を示しつつ、完全にカスタムされたアーキテクチャでは苦手でユーザー側のチューニングが必要になるかもしれないと注意しています。
  • 提案者はエッジケース対応のためのPR(例:モジュールタイプの除外リスト拡充)を歓迎し、時系列予測・ゲノミクス・言語モデリングなど幅広い領域でテストを追加してMuonの汎用性を検証する予定です。

みなさん、こんにちは。AutoMuon という小さな Python パッケージを作っていて、Muon オプティマイザを、任意の PyTorch の学習パイプラインにおける AdamW のドロップイン置き換えとして使えるようにしています。

中核となる考え方は比較的シンプルです。Muon は主に隠れ状態に対する 2D 重み行列(線形射影、畳み込み層)に対して動作しますが、それでも埋め込みや正規化、バイアスなどには AdamW が必要です。AutoMuon は初期化時にモデルをスキャンし、各パラメータに対して適切なオプティマイザを自動的に割り当てます。

PR(プルリクエスト)歓迎です。特に、アーキテクチャでエッジケースに当たった場合は、モジュールタイプの除外リストを拡張することがあると思うので、その対応に協力してもらえると嬉しいです。トランスフォーマーや CNN 以外の何かで試している人がいるなら、結果をぜひ知りたいです。完全にカスタムされたアーキテクチャ、たとえば flash-linear-attention みたいなものではうまくいきにくい気がするので、その場合はユーザー側のチューニングが必要になりそうです。

時系列予測、ゲノミクス、言語モデリングなどのためのテストをさらに追加する予定です。本当に Muon はどれくらい汎用的なのかを見てみたいです!

https://github.com/SkyeGunasekaran/automuon

pip install git+https://github.com/SkyeGunasekaran/automuon.git

を投稿 /u/Skye7821
[リンク] [コメント]