何年も、巨大言語モデルが推論を扱う方法は「箱」の中に閉じ込められたままでした。文字通りです。現代のLLM提供(サービング)を支える高帯域幅のRDMAネットワークは、プリフィルとデコードの両方を同じデータセンターに閉じ込めており、場合によっては同じラックにまで限定していました。Moonshot AIと清華大学の研究チームが、[…]
投稿Moonshot AIと清華大学の研究者がPrfaaSを提案:スケールにおけるLLMの提供方法を再考する、データセンターをまたぐKVCacheアーキテクチャが初めてMarkTechPostに掲載されました。




