専門家アクティベーション・パターンを用いたマルチノードMixture-of-Experts推論のスケーリング
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、Mixture-of-Experts(MoE)LLMの推論をスケールさせる際に、専門家(エキスパート)の負荷不均衡や不効率なトークンルーティングがボトルネックになると述べており、特にマルチノード環境では大規模なインターノード通信(all-to-all)が大きな負担になることを指摘しています。
- Llama 4 Maverick、DeepSeek V3-671B、Qwen3-230B-A22Bといった主要なオープンソースMoEモデルを、100k件超の実トークン専門家アクティベーション・トレースとともにプロファイリングした結果、専門家の利用がタスク分野ごとに変化するなど、複数のフロンティアMoEモデルに共通する性質や、prefillとdecodeの専門家アクティベーション間の強い相関が見つかったとしています。
- これらのアクティベーション・パターンに基づき、ワークロードに応じたマイクロバッチのグルーピングと、目的の専門家へのトークン局所性を最大化するための専門家配置戦略を提案しています。
- 複数のモデルとデータセットに対する実験では、これらの最適化によりall-to-all通信量を最大20%削減でき、MoEのdecodeレイテンシを下げつつアクセラレータ利用率を改善できることを示しています。




