Signed-off-by: Yifan Qiao yifanqiao@berkeley.edu
Signed-off-by: Yifan Qiao yifanqiao@inferact.ai
(cherry picked from commit 91e4521)
v0.19.0rc0: [Feat][v1] Simple yet General CPU KV Cache Offloading (#37160)
vLLM Releases / 4/1/2026
📰 NewsDeveloper Stack & Infrastructure
Key Points
- vLLMのv0.19.0rc0で、CPU側へのKVキャッシュオフロード機能(v1対応)が「シンプルかつ汎用的」に追加される提案/実装が含まれています。
- GPUメモリ消費を抑え、KVキャッシュ関連のメモリボトルネックを緩和することを目的に、キャッシュをCPUへ移す設計方針が示されています。
- 既存の推論ワークロードで、GPUメモリ制約下でもより大きなモデルや長いコンテキストを扱える可能性が高まります。
- リリース候補(rc0)段階の変更であり、利用者は性能・レイテンシ・スループットへの影響を含めて評価する必要があります。
Related Articles

Getting Started with RamaLama on Fedora
Dev.to

AI server farms heat up the neighborhood for miles around, paper finds
The Register

Paperclip: Công Cụ Miễn Phí Biến AI Thành Đội Phát Triển Phần Mềm
Dev.to

87.4% of My Agent's Decisions Run on a 0.8B Model
Dev.to

مشبك الورق: أداة مجانية تحول وكلاء الذكاء الاصطناعي إلى فريق برمجيات
Dev.to