ZeRO-Prefill:MoEプリフィル配信におけるゼロ冗長オーバーヘッド
arXiv cs.LG / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、分類・レコメンデーション・検証などのプリフィルのみのLLMワークロードにおけるMoEモデル配信のボトルネックが、計算量ではなく分散実行に伴うオーバーヘッドである点を扱っています。
- その要因として、エキスパート配置と同期的な活性ルーティングを結び付けた設計が、オートレグレッシブなデコーディング時代から引き継がれていることを指摘しています。
- ZeRO-PrefillではAsyncEPを導入し、活性のAllToAllを毎層で行うのではなく、エキスパートの重みを非同期にAllGatherで集めることで、長い計算集約型のプリフィル前向き計算と通信をオーバーラップさせます。
- さらに、プレフィックスに基づくルーティングと「真のFLOPs」による負荷計測、物理的に導出した飽和閾値を組み合わせて、ルーティングの偏りを抑えます。
- 実験ではQwen3-235B-A22Bで、実運用ワークロードにおいて最良の分散ベースライン比で1.35〜1.37×のスループット向上、長いコンテキストの合成テストで最大1.59×を達成し、GPUあたりのモデルFLOPs利用率は29.8〜36.2%となっています。




