スペクトル・ワッサースタイン流としてのミューオン・ダイナミクス

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、自然な行列／ブロック構造をなすパラメータを持つ深層ネットワークに対して、座標ごとのユークリッド正規化よりも、スペクトル勾配正規化のほうがより忠実であると主張しており、動機づけの例として Muon を用いている。
正定値半定値行列に対するノルム γ によってパラメータ化されたスペクトル・ワッサースタイン距離の族を導入し、トレース／作用素（オペレータ）／シャッテンノルムが、古典的な二乗ワッサースタイン、Muon の幾何、そしてそれらの間の補間を回復することを示す。
著者らは、静的（カントロヴィチ）および動的（ベナムー＝ブレイヤー）の両方の定式化を展開し、比較結果と同値性結果を証明し、輸送コストが、固定次元において W2 と同値な真の距離（メトリック）を与えること、さらにメトリック性がガウスの共分散に誘導されるコストへ拡張できることを示す。
ガウス分布が周辺分布（marginals）である場合、輸送問題は共分散行列に関する制約付き最適化へと帰着され、バーズ（Bures）の公式を拡張し、シャッテン族の範囲で可換な共分散に対する閉形式を与える。
正規化された連続の方程式をスペクトル・ワッサースタインの勾配流として解釈することで、論文は正規化された有限粒子の厳密な行列フローを導出し、予備的な測地線凸性／幾何学的性質を確立する。さらに、平均場モデルへの応用として、球面上でのスペクトル非釣り合い輸送（unbalanced transport）を扱う。

概要: 勾配正規化は深層学習の最適化において中核です。学習を安定化し、スケールへの感度を下げるからです。深いアーキテクチャでは、パラメータは自然に行列やブロックへとグループ化されるため、座標ごとのユークリッド正規化よりも、スペクトル正規化のほうがより忠実であることが多くなります。本論文の主な動機付けとなる例が Muon です。より広く言えば、本研究では、通常の勾配降下法から Muon、そして中間の Schatten 型のスキームに至るまでのスペクトル正規化規則の族を、パラメータを確率測度でモデル化する平均場の枠組みのもとで扱います。正定値半定値行列上のあるノルム gamma によって添字付けられた、スペクトル・ワッサースタイン距離の族を導入します。トレースノルムは古典的な二次ワッサースタイン距離を回復し、作用素ノルムは Muon の幾何を回復し、中間の Schatten ノルムはその間を補間します。静的なカントロビッチの定式化を開発し、W2 との比較評価を証明し、最大最小の表現を導出し、条件付きの Brenier 定理を得ます。ガウス分布の場合、この問題は共分散行列に関する制約付き最適化へと帰着し、Bures の公式を拡張するとともに、Schatten ファミリーにおける可換な共分散に対して閉形式を与えます。単調ノルム（すべての Schatten の場合を含む）については、静的定式化と動的 Benamou-Brenier 定式化の同値性を証明し、得られる輸送コストが固定次元において W2 と同値な真のメトリックであることを導き、さらに誘導されるガウスの共分散コストもメトリックであることを示します。次に、関連する正規化連続の方程式をスペクトル・ワッサースタインの勾配流として解釈し、その有限粒子に対する厳密な対応物を、正規化された行列フローとして特定します。さらに最初の測地線凸性の結果を得て、正に同次な平均場モデルが球面上でスペクトルのアンバランストランスポートをどのように誘導するかを示します。