P/D Disaggregated Inference with LMCache - 1

Zenn / 4/15/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

Key Points

P/D Disaggregated InferenceとLMCacheを組み合わせることで、LLM推論時の計算・メモリ負荷を下げ、キャッシュを活かした推論効率の改善を狙う内容です。
分離（disaggregated）した推論構成により、ワークロードやリソースを切り分けて扱う前提で、既存の推論フローをどう最適化するかを示しています。
LMCacheにより再利用できる中間情報（例：前段の計算結果やコンテキストに紐づくもの）をキャッシュし、同一/類似リクエストでの無駄を削減する方向性が中心です。
「- 1」とあるため連載の導入パートとして、全体像・狙い・前提となる考え方（なぜP/D＋LMCacheが効くのか）を整理していることが読み取れます。

はじめに https://zenn.dev/tosshi/articles/009bb138491dd1 ! ↑の続き！別件に色々対応しているうちにいつの間にか vLLM も v0.19.0 までアップデートされているので手元にあったコードを最新にアップデートして動作確認をします。本記事では、AWS 上で vLLM + LMCache を使って構築する方法を解説します。llm-d などを使うと楽なのかもしれませんが k8s での利用が前提になるのでだるいため今回は使いません。実際には llm-d は k8s 上でなくても動くようです。長いので以降では、P/D Disaggreg...

Continue reading this article on the original site.

Read original →