AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

プリフィル・アズ・ア・サービス：次世代モデルのKVキャッシュがデータセンター間で可能に

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この記事は、「Prefill-as-a-Service」として、プリフィル／デコードの分離を単一クラスタにとどめず複数のデータセンター間でも動かせるようにする取り組みを説明しています。
データセンター間の実行によって、主にKVキャッシュ転送に伴うオーバーヘッドという従来の制約を克服できるため、トークン当たりのコストを大幅に下げられると主張しています。
この手法は、「Kimi Linear」と呼ばれるハイブリッドモデルに依存しており、KVキャッシュのサイズを削減することでクロスDCでのプリフィル／デコードを現実的にします。
20倍にスケールしたKimi Linearモデルでの検証では、スループット1.54倍、P90 TTFT（初期応答までの時間）64%減を報告しており、トークン生成の低コスト化につながるとされています。
詳細は、関連するarXiv論文（「Prefill-as-a-Service」）へのリンクとして示されています。

Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter

^{ここで共有するだけですが、これがローカルモデルに対して適している／役に立つかどうかは分かりません。}

^{これはKimi／Moonshotによるものです。} ^{出典の投稿}

私たちは、単一クラスタを超えてPrefill／Decodeの分離を推し進めました。つまり、クロス・データセンター＋異種ハードウェアです。これにより、トークンあたりのコストを大幅に下げる可能性が解き放たれます。

これは以前、KVキャッシュ転送のオーバーヘッドによって阻まれていました。重要な実現要因は、私たちのハイブリッドモデル（Kimi Linear）で、KVキャッシュのサイズを削減し、クロスDC PDを現実的にします。

20倍にスケールアップしたKimi Linearモデルで検証済み：
✅ 1.54× スループット
✅ P90 TTFTが64%減
→ 直接、トークンコストの低下につながります。

Prefill-as-a-Serviceの詳細：arxiv.org/html/2604.15039v1

により提出 /u/pmttyji
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/19Dailyインサイトを見る →

関連記事

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

「横浜銀行など地銀5行が統合DBを刷新」など、3月に読まれた記事

「横浜銀行など地銀5行が統合DBを刷新」など、3月に読まれた記事

日経XTECH

インドの“地場”AIエコシステム：22の言語・28分野にまたがる110以上のアプリ

インドの“地場”AIエコシステム：22の言語・28分野にまたがる110以上のアプリ

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告