Gemma 4 は KV_cache の“ピッグ”(大食い)

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • この投稿では、密なモデルのアテンションにおける Gemma 4 の異常に大きい KV キャッシュのフットプリントについて取り上げ、他のモデルより 3 倍以上になり得ると主張している。
  • メモリ使用量の多くは、128 ではなく 256 のヘッド次元を用いるなどの設計上の選択に起因するとしている。
  • 著者は、KV キャッシュのサイズを 8-bit トークンあたり約 490KB(Qwen3 は約 128KB)と見積もっており、また実用上の制約として、4-bit 重みと 8-bit KV キャッシュを用いた場合に RTX Pro 6000(96GB RAM)で約 115k トークン程度が限界だと観察している。
  • KV キャッシュのコストが高いにもかかわらず、モデルは vLLM でのスケーリングは良好であり、ローカル推論でも依然として高い知能を提供するとされている。

Nvidiaが売りにしている密なモデルの4ビット量子化の、8ビット分のサイズを無視すると…

密なモデルのKVキャッシュ・アーキテクチャは、他のモデルで見てきたものよりも3倍以上のメモリを使います。大きな選択は、128ではなく256のヘッド次元だったようです。

私は、Qwen3では128KBなのに対して、KVキャッシュの8ビットトークンあたり490KBを見ています。

私は、RTX Pro 6000(メモリ96GB)で、nvidiaの重みを4ビットで動かし、8ビットのKVキャッシュにしていますが、それでも115kトークン分しか入る余地がありません。

正直、驚きました。このモデルはvllmでうまくスケールし、かなり賢そうです。

投稿者: /u/IngeniousIdiocy
[リンク] [コメント]