エキスパートルーティングの3つのフェーズ:Mixture-of-Experts(MoE)トレーニング中に負荷分散がどのように進化するか

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)のトークンルーティングを、単一の有効パラメータである γ_eff(gamma_eff)によって支配される輻輳ゲームとしてモデル化し、学習の過程におけるバランスと品質のトレードオフを調べる。

要旨: 我々は、Mixture-of-Experts(MoE)のトークンルーティングを、単一の有効パラメータである輻輳係数gamma_effを用いた輻輳ゲームとしてモデル化し、このパラメータがバランスと品質のトレードオフを定量化することを示す。2つのオープンソースMoEモデル、OLMoE-1B-7B(20チェックポイント、急増領域で密なサンプリング)およびOpenMoE-8B(6チェックポイント)の訓練チェックポイントにわたってgamma_effを追跡すると、3相の軌跡が明らかになる。すなわち、ルータが負荷のバランスを学習する「サージ相」(gamma_eff: 14から36-39、ステップ30K-40K領域でピーク)、安定したバランスのもとで専門家が分化する「安定化相」(B_0: 2.4から2.3、ステップ100K-400K)、そして専門家が差別化されるに伴いルータがバランスを品質へと交換する「緩和相」(gamma_eff: 27から9、ステップ400K-1.2M)である。収束したモデルの事後分析では見えない、この非単調な軌跡は、初期のMoE訓練はバランスを優先し、後期の訓練は品質を優先することを示している。理論的枠組みは、その限界について誠実である。単一タイプの平衡は、温度スケールされたsoftmaxに還元される(ホールドアウトL1: MFG = 0.199 vs. softmax = 0.200)。このゲームはより良い予測器ではない。むしろ、それが意味する温度とは何か、そして決定的に、その温度がどのように進化するかを明らかにする。我々は、このダイナミクスを、トークンクラスタリングを16層すべてで行うことによって負荷予測を改善する有効な輻輳分解と、多タイプ拡張により補完する(平均: 30%)。さらに、スコープ診断(K/M, epsilon_l)および、4つの独立した品質推定器にわたる頑健性の検証(r >= 0.89)を行う。すべての信頼区間は、50の独立なテキストバッチに対するブートストラップ再標本化に基づく。