P/D Disaggregated Inference with LMCache - 1

Zenn / 4/15/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

Key Points

  • P/D Disaggregated InferenceとLMCacheを組み合わせることで、LLM推論時の計算・メモリ負荷を下げ、キャッシュを活かした推論効率の改善を狙う内容です。
  • 分離(disaggregated)した推論構成により、ワークロードやリソースを切り分けて扱う前提で、既存の推論フローをどう最適化するかを示しています。
  • LMCacheにより再利用できる中間情報(例:前段の計算結果やコンテキストに紐づくもの)をキャッシュし、同一/類似リクエストでの無駄を削減する方向性が中心です。
  • 「- 1」とあるため連載の導入パートとして、全体像・狙い・前提となる考え方(なぜP/D+LMCacheが効くのか)を整理していることが読み取れます。
はじめに https://zenn.dev/tosshi/articles/009bb138491dd1 ! ↑の続き!別件に色々対応しているうちにいつの間にか vLLM も v0.19.0 までアップデートされているので手元にあったコードを最新にアップデートして動作確認をします。 本記事では、AWS 上で vLLM + LMCache を使って構築する方法を解説します。llm-d などを使うと楽なのかもしれませんが k8s での利用が前提になるのでだるいため今回は使いません。実際には llm-d は k8s 上でなくても動くようです。 長いので以降では、P/D Disaggreg...

Continue reading this article on the original site.

Read original →