FlowAdam: 幾何学に配慮したソフト・モーメント注入による暗黙の正則化

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Adamのような適応的モーメント手法は対角(座標ごと)で前処理するため、回転・密結合のあるパラメータ空間で最適化が難しくなるという課題を指摘しています。
  • FlowAdamは、EMA統計が「難しい地形」を検知したときに、勾配フローをODE(連続時間の統合)として切り替え、クリップ付きの統合で挙動を安定化させます。
  • 中核のSoft Momentum Injectionは、モード移行時にODE由来の速度とAdamのモーメントをブレンドし、単純なハイブリッドで起きる学習崩壊を防ぐことを狙っています。
  • 結果として、結合最適化ベンチマークでHeld-out誤差を10〜22%(低ランクの行列/テンソル回復)や約6%(Jesterの協調フィルタリング)改善し、LionやAdaBeliefを上回りつつ、良条件な課題ではAdamと同等の性能です。
  • アブレーションでは、Soft injectionが必須であり、Hardな置換は精度を100%から82.5%へ大きく低下させることを示しています。

要旨: Adam などの適応モーメント法は、二乗勾配の指数移動平均(EMA)に基づく対角の座標ごとの前処理行列(プレコンディショナー)を使用します。この対角スケーリングは座標系に依存しており、行列因子分解、テンソル分解、グラフニューラルネットワークに含まれるような密な、あるいは回転によって生じるパラメータ間の結合に対しては苦手です。なぜなら、この方法は各パラメータを独立に扱うためです。我々は、常微分方程式(ODE)を通じた連続的な勾配フロー統合を、Adam に組み込むことで強化するハイブリッド最適化手法 FlowAdam を提案します。EMA ベースの統計が地形の難しさを検知すると、FlowAdam はクリップされた ODE 統合へ切り替えます。中核となる貢献は、モード遷移の際に ODE の速度と Adam のモーメントをブレンドする Soft Momentum Injection です。これにより、素朴なハイブリッドアプローチで観測される学習の崩壊を防ぎます。結合最適化ベンチマーク全体で、ODE 統合は暗黙の正則化を提供し、低ランクの行列/テンソル回復では保持データ上の誤差を 10-22% 減少させ、Jester(現実世界の協調フィルタリング)では 6% 減少させます。さらに、調整済みの Lion と AdaBelief を上回りつつ、条件の良いワークロード(CIFAR-10)では Adam と同等の性能を維持します。MovieLens-100K は、その利点がバイアス推定ではなく、結合したパラメータ相互作用に特有に由来することを確認します。アブレーション研究では、ソフト注入が本質的であることが示されます。ハードな置換は精度を 100% から 82.5% に低下させます。