エキスパートルーティングの3つのフェーズ：Mixture-of-Experts（MoE）トレーニング中に負荷分散がどのように進化するか

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Mixture-of-Experts（MoE）のトークンルーティングを、単一の有効パラメータである γ_eff（gamma_eff）によって支配される輻輳ゲームとしてモデル化し、学習の過程におけるバランスと品質のトレードオフを調べる。

要旨: 我々は、Mixture-of-Experts（MoE）のトークンルーティングを、単一の有効パラメータである輻輳係数gamma_effを用いた輻輳ゲームとしてモデル化し、このパラメータがバランスと品質のトレードオフを定量化することを示す。2つのオープンソースMoEモデル、OLMoE-1B-7B（20チェックポイント、急増領域で密なサンプリング）およびOpenMoE-8B（6チェックポイント）の訓練チェックポイントにわたってgamma_effを追跡すると、3相の軌跡が明らかになる。すなわち、ルータが負荷のバランスを学習する「サージ相」（gamma_eff: 14から36-39、ステップ30K-40K領域でピーク）、安定したバランスのもとで専門家が分化する「安定化相」（B_0: 2.4から2.3、ステップ100K-400K）、そして専門家が差別化されるに伴いルータがバランスを品質へと交換する「緩和相」（gamma_eff: 27から9、ステップ400K-1.2M）である。収束したモデルの事後分析では見えない、この非単調な軌跡は、初期のMoE訓練はバランスを優先し、後期の訓練は品質を優先することを示している。理論的枠組みは、その限界について誠実である。単一タイプの平衡は、温度スケールされたsoftmaxに還元される（ホールドアウトL1: MFG = 0.199 vs. softmax = 0.200）。このゲームはより良い予測器ではない。むしろ、それが意味する温度とは何か、そして決定的に、その温度がどのように進化するかを明らかにする。我々は、このダイナミクスを、トークンクラスタリングを16層すべてで行うことによって負荷予測を改善する有効な輻輳分解と、多タイプ拡張により補完する（平均: 30%）。さらに、スコープ診断（K/M, epsilon_l）および、4つの独立した品質推定器にわたる頑健性の検証（r >= 0.89）を行う。すべての信頼区間は、50の独立なテキストバッチに対するブートストラップ再標本化に基づく。

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

エキスパートルーティングの3つのフェーズ：Mixture-of-Experts（MoE）トレーニング中に負荷分散がどのように進化するか

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別