Rethinking Network Topologies for Cost-Effective Mixture-of-Experts LLM Serving
arXiv cs.AI / 5/4/2026
💬 OpinionDeveloper Stack & InfrastructureModels & Research
Key Points
- Mixture-of-experts(MoE)LLMの提供では通信がランタイムの大きな割合を占めるため、これまで高帯域の高価なスケールアップ・ネットワークへの投資が進んできたが、その必要性を見直す議論が提示された。
- 本稿は、スケールアップ、スケールアウト、3Dトーラス、3Dフルメッシュの4つのXPUトポロジについて、ネットワークの費用対効果をクロスレイヤで体系的に比較し、スイッチレス(スイッチ無し)系トポロジがスケールアップより全シナリオで有利だと示した。
- スイッチレス・トポロジはコスト効率を20.6〜56.2%改善し、特に3Dフルメッシュは性能とコストのトレードオフでパレート最適であると結論づけた。
- さらに、スケールアップ側のリンク帯域が過剰に見積もられている可能性があり、帯域を下げることでスループット/コストが最大27%向上し得ること、そして次世代GPUでもスイッチレスのコスト優位が継続しそうだと予測した。
Related Articles
AnnouncementsBuilding a new enterprise AI services company with Blackstone, Hellman & Friedman, and Goldman Sachs
Anthropic News

Dara Khosrowshahi on replacing Uber drivers — and himself — with AI
The Verge
CLMA Frame Test
Dev.to
Governance and Liability in AI Agents: What I Built Trying to Answer Those Questions
Dev.to

Roundtable chat with Talkie-1930 and Gemma 4 31B
Reddit r/LocalLLaMA