Moonshot AIと清華大学研究者、PrfaaSを提案――クロスデータセンターKVキャッシュ構成でLLMの大規模サービングを再考

MarkTechPost / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • Moonshot AIと清華大学の研究チームは、LLM推論サービスのボトルネックを見直すための「PrfaaS」を提案しています。
  • 従来は高帯域RDMAネットワークの都合で、LLMのprefillとdecodeが同一データセンター(場合によっては同一ラック)に閉じ込められていました。
  • 提案方式では、異なるデータセンター間でKVキャッシュを扱えるようにするクロス・データセンター型のKVCacheアーキテクチャを目指しています。
  • これにより、LLMの大規模サービングにおけるネットワーク配置や推論効率の改善につながる可能性があります。

何年も、巨大言語モデルが推論を扱う方法は「箱」の中に閉じ込められたままでした。文字通りです。現代のLLM提供(サービング)を支える高帯域幅のRDMAネットワークは、プリフィルとデコードの両方を同じデータセンターに閉じ込めており、場合によっては同じラックにまで限定していました。Moonshot AIと清華大学の研究チームが、[…]

投稿Moonshot AIと清華大学の研究者がPrfaaSを提案:スケールにおけるLLMの提供方法を再考する、データセンターをまたぐKVCacheアーキテクチャが初めてMarkTechPostに掲載されました。