v0.19.0rc0: [Feat][v1] Simple yet General CPU KV Cache Offloading (#37160)

vLLM Releases / 4/1/2026

📰 NewsDeveloper Stack & Infrastructure

Key Points

  • vLLMのv0.19.0rc0で、CPU側へのKVキャッシュオフロード機能(v1対応)が「シンプルかつ汎用的」に追加される提案/実装が含まれています。
  • GPUメモリ消費を抑え、KVキャッシュ関連のメモリボトルネックを緩和することを目的に、キャッシュをCPUへ移す設計方針が示されています。
  • 既存の推論ワークロードで、GPUメモリ制約下でもより大きなモデルや長いコンテキストを扱える可能性が高まります。
  • リリース候補(rc0)段階の変更であり、利用者は性能・レイテンシ・スループットへの影響を含めて評価する必要があります。

Signed-off-by: Yifan Qiao yifanqiao@berkeley.edu
Signed-off-by: Yifan Qiao yifanqiao@inferact.ai
(cherry picked from commit 91e4521)