FluxMoE:高性能MoEサービングのためのエキスパート居住性のデカップリング

arXiv cs.LG / 2026/4/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文では、MoE推論における重要なボトルネックとして、エキスパートの重みがGPUメモリ上で待機している一方で、スループットを左右するKVキャッシュが性能上のボトルネックになりやすい点を指摘している。これによりメモリが十分に活用されず、サービング性能が低下する。
  • FluxMoEは、エキスパートのパラメータを、永続的なGPU常駐から切り離す新しいMoE推論システムとして提案されている。具体的には、エキスパート・ページングという抽象化により、必要に応じてエキスパート重みをストリーミングする。
  • 必要なときにのみエキスパートをマテリアライズし、使用後すぐに退避(エビクト)することで、FluxMoEはKVキャッシュのようなスループットに直結する実行時状態のためにGPUメモリを優先的に確保する。
  • このシステムはvLLMの上に実装されており、厳しいメモリ制約下での効率的なMoE推論を目標としている。
  • 実験では、モデルの忠実性を損なうことなく、メモリ負荷の大きいシナリオにおいてvLLMに対して最大3.0倍のスループット向上が報告されている。

概要: Mixture-of-Experts(MoE)モデルは、大規模言語モデルのスケーリングにおける支配的なパラダイムとなっていますが、パラメータサイズが急速に増大することで推論時に根本的な非効率が生じます。具体的には、ほとんどのエキスパートの重みがGPUメモリ上で待機したまま、キー・バリュー(KV)キャッシュのような性能に直結する実行時状態と競合します。KVキャッシュ容量はサービングのスループットを直接決定するため、この不一致は未活用のメモリと性能低下につながります。本論文では、エキスパートのパラメータを永続的なGPU常駐から切り離す新しいMoE推論システム「FluxMoE」を提案します。FluxMoEは、エキスパートの重みをストリーミングされる一過性のリソースとして扱うエキスパート・ページング抽象化を導入します。これにより、必要に応じて重みを生成(マテリアライズ)し、使用直後に直ちに追い出すことで、GPUメモリをスループットにクリティカルな実行時状態へ優先的に割り当てられるようにします。FluxMoEは、メモリ制約が厳しい状況下でも効率的なMoE推論を実現するために、vLLMの上に実装します。実験結果により、FluxMoEはモデルの忠実性を損なうことなく、メモリ集約的な領域でvLLMに対して最大3.0\timesのスループット向上を達成することを示します。