Alloc-MoE：効率的なMixture-of-Experts推論のための予算に応じたエキスパート活性化割り当て

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Mixture-of-Experts（MoE）モデルにおける重要な推論のボトルネックとして、エキスパートの活性化回数が大きくなることでレイテンシが顕著に増加し、特にリソース制約のある環境で顕著になる点を扱う。
「活性化予算（activation budget）」という枠組みを導入し、活性化できるエキスパート数を制限することで、単に活性化を減らすだけの先行手法で見られるパフォーマンス低下を防ぐことを目指す。
提案手法Alloc-MoEは、エキスパート活性化の割り当てを2つのレベルで最適化する。Alloc-Lでは感度プロファイリングと動的計画法を用いて層ごとの割り当てを選択し、Alloc-Tではルーティングスコアを使ってトークン単位で活性化を再配分する。
複数のMoEモデルに対する実験により、Alloc-MoEが制約された活性化予算下でもモデル性能を維持できることが示される。
DeepSeek-V2-Liteにおいて、Alloc-MoEは元の活性化予算の半分だけを用いながら、prefillで1.15×、decodeで1.34×の速度向上を報告している。

要旨: Mixture-of-Experts（MoE）は、疎な活性化メカニズムにより大規模言語モデルをスケールするための支配的なアーキテクチャとなっています。しかし、エキスパートの活性化（expert activations）が膨大な数にのぼるため、推論時には特にリソースが制約されたデプロイ環境において、重要なレイテンシのボトルネックが生じます。エキスパートの活性化数を減らす既存の手法は、潜在的に深刻なモデル性能の劣化につながり得ます。本研究では、エキスパートの活性化数に対する制約として\\emph{activation budget（活性化予算）}の概念を導入し、性能劣化を最小化するために層レベルとトークンレベルの両方で予算配分を協調的に最適化する統一フレームワークAlloc-MoEを提案します。層レベルでは、感度プロファイリングと動的計画法を活用して、層をまたいだエキスパート活性化の最適配分を決定するAlloc-Lを導入します。トークンレベルでは、ルーティングスコアに基づいて活性化を動的に再配分するAlloc-Tを提案し、レイテンシを増やすことなく予算配分を最適化します。複数のMoEモデルに対する大規模な実験により、Alloc-MoEは制約された活性化予算のもとでもモデル性能を維持できることを示します。とりわけ、Alloc-MoEはDeepSeek-V2-Liteにおいて、元の予算の半分で $1.15\times$ のprefill速度および $1.34\times$ のdecode速度の向上を達成します。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Alloc-MoE：効率的なMixture-of-Experts推論のための予算に応じたエキスパート活性化割り当て

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透