要旨: 近年の進展により、非ユークリッドのノルム球上で線形最小化オラクル(LMO)に基づくムオン型オプティマイザは、大規模言語モデルの学習において、Adam型手法より優れた実運用上の性能を得られる可能性があることが示されている。大規模なニューラルネットワークは膨大な台数のマシンにまたがって学習されるため、通信コストがボトルネックとなる。このボトルネックに対処するために、より一般的な層ごとの(L^0, L^1)-滑らか性の設定において、かつ非偏(unbiased)および収縮(contraction)型コンプレッサの両方を備えた、Muonの拡張であるGluonを調査する。圧縮誤差を低減するために、圧縮手法においてSARAHの分散低減(variance reduced)技法を用いる。収束率および改善された通信コストは、一定の条件のもとで達成される。副産物として、Gluonよりも速い収束率を持つ新たな分散低減アルゴリズムが得られる。さらに、これらの圧縮アルゴリズムにモーメント分散低減(MVR)を組み込み、L_i^1 の場合により弱い条件のもとで、同等の通信コストが導かれる。最後に、通信コストの観点で提案する圧縮アルゴリズムの優位性を検証するために、いくつかの数値実験を実施する。
eq 0
フェデレーテッドラーニングにおける通信効率の高いグルーオン
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、レイヤーごとの(L^0, L^1)平滑性の仮定のもとで動作するフェデレーテッドラーニング向けの、Muonの拡張であるCommunication-Efficient Gluonを提案する。




