AI Navigate

インサイト最新記事一覧 AI大全

v0.19.0rc0: [Feat][v1] Simple yet General CPU KV Cache Offloading (#37160)

vLLM Releases / 4/1/2026

📰 NewsDeveloper Stack & Infrastructure

Read original →

共有:

Key Points

vLLMのv0.19.0rc0で、CPU側へのKVキャッシュオフロード機能（v1対応）が「シンプルかつ汎用的」に追加される提案/実装が含まれています。
GPUメモリ消費を抑え、KVキャッシュ関連のメモリボトルネックを緩和することを目的に、キャッシュをCPUへ移す設計方針が示されています。
既存の推論ワークロードで、GPUメモリ制約下でもより大きなモデルや長いコンテキストを扱える可能性が高まります。
リリース候補（rc0）段階の変更であり、利用者は性能・レイテンシ・スループットへの影響を含めて評価する必要があります。

Signed-off-by: Yifan Qiao yifanqiao@berkeley.edu
Signed-off-by: Yifan Qiao yifanqiao@inferact.ai
(cherry picked from commit 91e4521)

Related Articles

Getting Started with RamaLama on Fedora

Getting Started with RamaLama on Fedora

Dev.to

AI server farms heat up the neighborhood for miles around, paper finds

AI server farms heat up the neighborhood for miles around, paper finds

The Register

Paperclip: Công Cụ Miễn Phí Biến AI Thành Đội Phát Triển Phần Mềm

Paperclip: Công Cụ Miễn Phí Biến AI Thành Đội Phát Triển Phần Mềm

Dev.to

87.4% of My Agent's Decisions Run on a 0.8B Model

87.4% of My Agent's Decisions Run on a 0.8B Model

Dev.to

مشبك الورق: أداة مجانية تحول وكلاء الذكاء الاصطناعي إلى فريق برمجيات

مشبك الورق: أداة مجانية تحول وكلاء الذكاء الاصطناعي إلى فريق برمجيات

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。