Moonshot AIと清華大学研究者、PrfaaSを提案――クロスデータセンターKVキャッシュ構成でLLMの大規模サービングを再考

MarkTechPost / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

Moonshot AIと清華大学の研究チームは、LLM推論サービスのボトルネックを見直すための「PrfaaS」を提案しています。
従来は高帯域RDMAネットワークの都合で、LLMのprefillとdecodeが同一データセンター（場合によっては同一ラック）に閉じ込められていました。
提案方式では、異なるデータセンター間でKVキャッシュを扱えるようにするクロス・データセンター型のKVCacheアーキテクチャを目指しています。
これにより、LLMの大規模サービングにおけるネットワーク配置や推論効率の改善につながる可能性があります。

何年も、巨大言語モデルが推論を扱う方法は「箱」の中に閉じ込められたままでした。文字通りです。現代のLLM提供（サービング）を支える高帯域幅のRDMAネットワークは、プリフィルとデコードの両方を同じデータセンターに閉じ込めており、場合によっては同じラックにまで限定していました。Moonshot AIと清華大学の研究チームが、[…]

投稿Moonshot AIと清華大学の研究者がPrfaaSを提案：スケールにおけるLLMの提供方法を再考する、データセンターをまたぐKVCacheアーキテクチャが初めてMarkTechPostに掲載されました。