Gemma 4 は KV_cache の“ピッグ”（大食い）

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

この投稿では、密なモデルのアテンションにおける Gemma 4 の異常に大きい KV キャッシュのフットプリントについて取り上げ、他のモデルより 3 倍以上になり得ると主張している。
メモリ使用量の多くは、128 ではなく 256 のヘッド次元を用いるなどの設計上の選択に起因するとしている。
著者は、KV キャッシュのサイズを 8-bit トークンあたり約 490KB（Qwen3 は約 128KB）と見積もっており、また実用上の制約として、4-bit 重みと 8-bit KV キャッシュを用いた場合に RTX Pro 6000（96GB RAM）で約 115k トークン程度が限界だと観察している。
KV キャッシュのコストが高いにもかかわらず、モデルは vLLM でのスケーリングは良好であり、ローカル推論でも依然として高い知能を提供するとされている。

Nvidiaが売りにしている密なモデルの4ビット量子化の、8ビット分のサイズを無視すると…

密なモデルのKVキャッシュ・アーキテクチャは、他のモデルで見てきたものよりも3倍以上のメモリを使います。大きな選択は、128ではなく256のヘッド次元だったようです。

私は、Qwen3では128KBなのに対して、KVキャッシュの8ビットトークンあたり490KBを見ています。

私は、RTX Pro 6000（メモリ96GB）で、nvidiaの重みを4ビットで動かし、8ビットのKVキャッシュにしていますが、それでも115kトークン分しか入る余地がありません。

正直、驚きました。このモデルはvllmでうまくスケールし、かなり賢そうです。