プリフィル・アズ・ア・サービス:次世代モデルのKVキャッシュがデータセンター間で可能に

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この記事は、「Prefill-as-a-Service」として、プリフィル/デコードの分離を単一クラスタにとどめず複数のデータセンター間でも動かせるようにする取り組みを説明しています。
  • データセンター間の実行によって、主にKVキャッシュ転送に伴うオーバーヘッドという従来の制約を克服できるため、トークン当たりのコストを大幅に下げられると主張しています。
  • この手法は、「Kimi Linear」と呼ばれるハイブリッドモデルに依存しており、KVキャッシュのサイズを削減することでクロスDCでのプリフィル/デコードを現実的にします。
  • 20倍にスケールしたKimi Linearモデルでの検証では、スループット1.54倍、P90 TTFT(初期応答までの時間)64%減を報告しており、トークン生成の低コスト化につながるとされています。
  • 詳細は、関連するarXiv論文(「Prefill-as-a-Service」)へのリンクとして示されています。
Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter

ここで共有するだけですが、これがローカルモデルに対して適している/役に立つかどうかは分かりません。

これはKimi/Moonshotによるものです。 出典の投稿

私たちは、単一クラスタを超えてPrefill/Decodeの分離を推し進めました。つまり、クロス・データセンター+異種ハードウェアです。これにより、トークンあたりのコストを大幅に下げる可能性が解き放たれます。

これは以前、KVキャッシュ転送のオーバーヘッドによって阻まれていました。重要な実現要因は、私たちのハイブリッドモデル(Kimi Linear)で、KVキャッシュのサイズを削減し、クロスDC PDを現実的にします。

20倍にスケールアップしたKimi Linearモデルで検証済み:
✅ 1.54× スループット
✅ P90 TTFTが64%減
→ 直接、トークンコストの低下につながります。

Prefill-as-a-Serviceの詳細:arxiv.org/html/2604.15039v1

により提出 /u/pmttyji
[リンク] [コメント]