要旨: Mixture-of-Experts(MoE)は、疎な活性化メカニズムにより大規模言語モデルをスケールするための支配的なアーキテクチャとなっています。しかし、エキスパートの活性化(expert activations)が膨大な数にのぼるため、推論時には特にリソースが制約されたデプロイ環境において、重要なレイテンシのボトルネックが生じます。エキスパートの活性化数を減らす既存の手法は、潜在的に深刻なモデル性能の劣化につながり得ます。本研究では、エキスパートの活性化数に対する制約として\\emph{activation budget(活性化予算)}の概念を導入し、性能劣化を最小化するために層レベルとトークンレベルの両方で予算配分を協調的に最適化する統一フレームワークAlloc-MoEを提案します。層レベルでは、感度プロファイリングと動的計画法を活用して、層をまたいだエキスパート活性化の最適配分を決定するAlloc-Lを導入します。トークンレベルでは、ルーティングスコアに基づいて活性化を動的に再配分するAlloc-Tを提案し、レイテンシを増やすことなく予算配分を最適化します。複数のMoEモデルに対する大規模な実験により、Alloc-MoEは制約された活性化予算のもとでもモデル性能を維持できることを示します。とりわけ、Alloc-MoEはDeepSeek-V2-Liteにおいて、元の予算の半分で1.15\timesのprefill速度および1.34\timesのdecode速度の向上を達成します。
Alloc-MoE:効率的なMixture-of-Experts推論のための予算に応じたエキスパート活性化割り当て
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Mixture-of-Experts(MoE)モデルにおける重要な推論のボトルネックとして、エキスパートの活性化回数が大きくなることでレイテンシが顕著に増加し、特にリソース制約のある環境で顕著になる点を扱う。
- 「活性化予算(activation budget)」という枠組みを導入し、活性化できるエキスパート数を制限することで、単に活性化を減らすだけの先行手法で見られるパフォーマンス低下を防ぐことを目指す。
- 提案手法Alloc-MoEは、エキスパート活性化の割り当てを2つのレベルで最適化する。Alloc-Lでは感度プロファイリングと動的計画法を用いて層ごとの割り当てを選択し、Alloc-Tではルーティングスコアを使ってトークン単位で活性化を再配分する。
- 複数のMoEモデルに対する実験により、Alloc-MoEが制約された活性化予算下でもモデル性能を維持できることが示される。
- DeepSeek-V2-Liteにおいて、Alloc-MoEは元の活性化予算の半分だけを用いながら、prefillで1.15×、decodeで1.34×の速度向上を報告している。


