コスト効率のよいMixture-of-Experts(MoE)LLM提供のためのネットワークトポロジ再考

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • Mixture-of-experts(MoE)LLMの提供では通信がランタイムの大きな割合を占めるため、これまで高帯域の高価なスケールアップ・ネットワークへの投資が進んできたが、その必要性を見直す議論が提示された。
  • 本稿は、スケールアップ、スケールアウト、3Dトーラス、3Dフルメッシュの4つのXPUトポロジについて、ネットワークの費用対効果をクロスレイヤで体系的に比較し、スイッチレス(スイッチ無し)系トポロジがスケールアップより全シナリオで有利だと示した。
  • スイッチレス・トポロジはコスト効率を20.6〜56.2%改善し、特に3Dフルメッシュは性能とコストのトレードオフでパレート最適であると結論づけた。
  • さらに、スケールアップ側のリンク帯域が過剰に見積もられている可能性があり、帯域を下げることでスループット/コストが最大27%向上し得ること、そして次世代GPUでもスイッチレスのコスト優位が継続しそうだと予測した。

Abstract

混合専門家(Mixture-of-experts: MoE)アーキテクチャは、LLMの提供を、通信がLLM提供ランタイムのかなりの割合を占めるクラスタ規模のワークロードへと変貌させてきました。これにより、業界では高価で高帯域幅のスケールアップ・ネットワークに大規模な投資が行われています。本研究では、そのようなコストのかかるインフラが厳密に必要なのかどうかを問い直します。MoE LLM提供におけるネットワーク費用対効果の、最初の体系的なクロスレイヤ解析を提示し、4つの代表的なXPU(例:GPU/TPU)トポロジ(スケールアップ、スケールアウト、3Dトーラス、3Dフルメッシュ)を比較します。その結果、調査したすべての提供シナリオにおいて、低コストのスイッチレス・トポロジの方がスケールアップ・トポロジより費用対効果が高いことが分かりました。費用対効果は20.6〜56.2%向上します。特に、3Dフルメッシュ・トポロジは、性能とコストのトレードオフにおいてパレート最適であることを示します。また、現行のスケールアップ・リンク帯域幅が過剰に見積もられていることも分かりました。リンク帯域幅を削減すると、コストあたりスループットが最大27%向上します。今後のGPU世代を見据えた分析から、スイッチレス・ネットワークのコスト性能上の優位性はおそらく持続するだろうと示唆されます。