P/D Disaggregated Inference with LMCache - 1
Zenn / 4/15/2026
💬 OpinionDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
Key Points
- P/D Disaggregated InferenceとLMCacheを組み合わせることで、LLM推論時の計算・メモリ負荷を下げ、キャッシュを活かした推論効率の改善を狙う内容です。
- 分離(disaggregated)した推論構成により、ワークロードやリソースを切り分けて扱う前提で、既存の推論フローをどう最適化するかを示しています。
- LMCacheにより再利用できる中間情報(例:前段の計算結果やコンテキストに紐づくもの)をキャッシュし、同一/類似リクエストでの無駄を削減する方向性が中心です。
- 「- 1」とあるため連載の導入パートとして、全体像・狙い・前提となる考え方(なぜP/D+LMCacheが効くのか)を整理していることが読み取れます。
はじめに
https://zenn.dev/tosshi/articles/009bb138491dd1
!
↑の続き!別件に色々対応しているうちにいつの間にか vLLM も v0.19.0 までアップデートされているので手元にあったコードを最新にアップデートして動作確認をします。
本記事では、AWS 上で vLLM + LMCache を使って構築する方法を解説します。llm-d などを使うと楽なのかもしれませんが k8s での利用が前提になるのでだるいため今回は使いません。実際には llm-d は k8s 上でなくても動くようです。
長いので以降では、P/D Disaggreg...
Continue reading this article on the original site.
Read original →



