Signed-off-by: Yifan Qiao yifanqiao@berkeley.edu
Signed-off-by: Yifan Qiao yifanqiao@inferact.ai
(91e4521 のコミットからチェリーピック)
v0.19.0rc0: [機能][v1] シンプルかつ汎用的なCPU KVキャッシュオフロード (#37160)
vLLM Releases / 2026/4/1
📰 ニュースDeveloper Stack & Infrastructure
要点
- vLLMのv0.19.0rc0で、CPU側へのKVキャッシュオフロード機能(v1対応)が「シンプルかつ汎用的」に追加される提案/実装が含まれています。
- GPUメモリ消費を抑え、KVキャッシュ関連のメモリボトルネックを緩和することを目的に、キャッシュをCPUへ移す設計方針が示されています。
- 既存の推論ワークロードで、GPUメモリ制約下でもより大きなモデルや長いコンテキストを扱える可能性が高まります。
- リリース候補(rc0)段階の変更であり、利用者は性能・レイテンシ・スループットへの影響を含めて評価する必要があります。




