KVキャッシュをQ4に落としたら32Kコンテキストが8GBに収まった — 壊れたのは数学だけだった

Qiita / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • KVキャッシュをQ4(量子化)に落とすことで、32Kコンテキスト時のメモリ使用量を8GBに収められたという実測・報告です。
  • コンテキスト長を伸ばす際のボトルネックであるKVキャッシュの消費を、数値表現の工夫で大幅に圧縮できる点がポイントです。
  • その結果、ローカルLLM(例: llama.cpp)で高コンテキストを狙う運用の現実性が上がる可能性があります。
  • 記事の着眼は「数学(設計・計算)だけが壊れていた」という比喩で、実装上の不整合や誤差ではなく定量的な見積もり・設定の重要性を示唆しています。
KVキャッシュをQ4に落としたら32Kコンテキストが8GBに収まった — 壊れたのは数学だけだった LLMの推論で最もVRAMを食うのはモデルの重み……ではない場合がある。 コンテキスト長が伸びると、KVキャッシュのメモリ消費がモデル本体を超える。Llama-3-8B(Q...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →