| ここで共有するだけですが、これがローカルモデルに対して適している/役に立つかどうかは分かりません。 これはKimi/Moonshotによるものです。 出典の投稿 私たちは、単一クラスタを超えてPrefill/Decodeの分離を推し進めました。つまり、クロス・データセンター+異種ハードウェアです。これにより、トークンあたりのコストを大幅に下げる可能性が解き放たれます。 これは以前、KVキャッシュ転送のオーバーヘッドによって阻まれていました。重要な実現要因は、私たちのハイブリッドモデル(Kimi Linear)で、KVキャッシュのサイズを削減し、クロスDC PDを現実的にします。 20倍にスケールアップしたKimi Linearモデルで検証済み: Prefill-as-a-Serviceの詳細:arxiv.org/html/2604.15039v1 [リンク] [コメント] |
プリフィル・アズ・ア・サービス:次世代モデルのKVキャッシュがデータセンター間で可能に
Reddit r/LocalLLaMA / 2026/4/19
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この記事は、「Prefill-as-a-Service」として、プリフィル/デコードの分離を単一クラスタにとどめず複数のデータセンター間でも動かせるようにする取り組みを説明しています。
- データセンター間の実行によって、主にKVキャッシュ転送に伴うオーバーヘッドという従来の制約を克服できるため、トークン当たりのコストを大幅に下げられると主張しています。
- この手法は、「Kimi Linear」と呼ばれるハイブリッドモデルに依存しており、KVキャッシュのサイズを削減することでクロスDCでのプリフィル/デコードを現実的にします。
- 20倍にスケールしたKimi Linearモデルでの検証では、スループット1.54倍、P90 TTFT(初期応答までの時間)64%減を報告しており、トークン生成の低コスト化につながるとされています。
- 詳細は、関連するarXiv論文(「Prefill-as-a-Service」)へのリンクとして示されています。



