専門家のアップサイクリング:Mixture-of-Expertsの計算効率フロンティアを押し広げる

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)モデルの学習コストが高い点(メモリとデバイス間通信が総パラメータ数に比例して増える)を問題として扱い、固定された1トークン当たり計算量の下で専門家数を増やすことで品質が向上し得ることを述べています。
  • 「expert upcycling(専門家のアップサイクリング)」として、すでに学習済みのMoEを専門家の重複とルータ拡張で拡張し、continued pre-training(CPT)の間に行う手法を提案します。このときtop-Kルーティングは固定し、推論の1トークン当たり計算コストを維持します。
  • 重複による“ウォームスタート”により、拡張後のモデルはCPTをランダム初期化よりも大幅に低い損失から開始でき、CPTが重複した専門家間の対称性を崩すことで専門化が進むことを示します。
  • 著者らは、改善ギャップを「初期化要因」と「能力(容量)要因」に分解する理論的枠組みを提示します。
  • 実験では7B〜13B規模のMoEで、アップサイクリング後のモデルが検証損失で固定サイズのベースラインに一致しつつ、GPU時間を約32%節約できることを報告し、さらにCPT予算を制限した場合でもユーティリティベースの専門家選択でギャップ閉口が大きく進むとしています。

要旨: Mixture-of-Experts(MoE)は、大規模言語モデルをスケールするための支配的なアーキテクチャとなっています。最先端のモデルでは、疎なエキスパート経路探索によって、総パラメータ数をトークンあたり計算量から日常的に切り離すことが行われています。スケーリング則は、アクティブ計算が固定されている場合、モデル品質は総パラメータ数に対して予測可能な形で向上し、MoEはエキスパート数を増やすことでこれを実現します。しかし、大規模MoEの学習は高コストです。メモリ要求とデバイス間通信の両方が、総パラメータ数にスケールするためです。そこで本論文では、継続事前学習(CPT)中にエキスパート数を増やすことで、MoE能力を段階的に拡張する方法である「エキスパート・アップサイクリング(expert upcycling)」を提案します。訓練済みのEエキスパート・モデルが与えられたとき、アップサイクリング演算子は、トップKの経路探索を固定したまま、エキスパートの複製とルータの拡張によって、mEエキスパート・モデルを構築します。これにより、トークンあたりの推論コストは保持されます。複製はウォーム・スタート(温かい初期化)を提供します。拡張されたモデルは、ランダム初期化からではなく、ソースのチェックポイントが学習した表現を継承し、実質的に低い損失から開始できます。その後続くCPTでは、複製されたエキスパート間の対称性が破られ、専門化が促進されます。本論文では、アップサイクリング演算子を形式化し、品質ギャップを「能力(capacity)項」と「初期化(initialization)項」に分解する理論的枠組みを開発します。さらに、勾配ベースの重要度スコアを用いて非一様な複製を導く、ユーティリティに基づくエキスパート選択も導入します。これは、CPTが制限されている場合に、ギャップの閉じ方を3倍以上に改善します。総パラメータが7B〜13Bの実験では、アップサイクリングされたモデルは検証損失において固定サイズのベースラインと同等の性能を達成しつつ、GPU時間を32%節約しました。モデル規模、活性化比率、MoEアーキテクチャ、訓練予算にわたる包括的なアブレーションにより、エキスパート・アップサイクリングを実運用するための実用的なレシピが得られました。これは、大規模MoEモデルを最初から学習するのではなく、原理に基づき、計算効率の高い代替案として確立されます。