専門家アクティベーション・パターンを用いたマルチノードMixture-of-Experts推論のスケーリング

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、Mixture-of-Experts（MoE）LLMの推論をスケールさせる際に、専門家（エキスパート）の負荷不均衡や不効率なトークンルーティングがボトルネックになると述べており、特にマルチノード環境では大規模なインターノード通信（all-to-all）が大きな負担になることを指摘しています。
Llama 4 Maverick、DeepSeek V3-671B、Qwen3-230B-A22Bといった主要なオープンソースMoEモデルを、100k件超の実トークン専門家アクティベーション・トレースとともにプロファイリングした結果、専門家の利用がタスク分野ごとに変化するなど、複数のフロンティアMoEモデルに共通する性質や、prefillとdecodeの専門家アクティベーション間の強い相関が見つかったとしています。
これらのアクティベーション・パターンに基づき、ワークロードに応じたマイクロバッチのグルーピングと、目的の専門家へのトークン局所性を最大化するための専門家配置戦略を提案しています。
複数のモデルとデータセットに対する実験では、これらの最適化によりall-to-all通信量を最大20%削減でき、MoEのdecodeレイテンシを下げつつアクセラレータ利用率を改善できることを示しています。