Gemma-4モデルでいちばんの問題は巨大すぎるKVキャッシュ!!

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、UnslothのGemma-4 31B(UD-Q8)を40GB VRAM構成で動かすのは難しいと報告している。理由はKVキャッシュが大きくなりすぎてしまい、2Kコンテキストでも収めるために強いKV量子化が必要になるため。
  • 彼らはQwen3.5-27B(UD-Q8)との比較を行っており、こちらはKV量子化なしでフルコンテキストに収められるので、より実用的だと述べている。
  • ユーザーは、もしGemma-4がQ4モデル量子化に加えて、KVキャッシュは少なくともQ8(またはそれ以下)の量子化が必要ということなら、ベンチマークでの性能がより良いQwen3.5-27Bを使うほうがよいと主張している。
  • 最後に、Gemma-4の使用経験を他の人に尋ねており、KVキャッシュ容量と、ローカルLLMの実運用における制約についてコミュニティ内で議論が続いていることを示唆している。

つまり、Vramが40GBあるのに、それでも2Kのコンテキストサイズでさえ、KVを2KコンテキストサイズのQ4に量子化しない限り、Unsloth Gemma-4-31B-it-UD-Q8(35GB)全体を収められません。 WTF? 比較のために言うと、KV量子化なしでフルコンテキストのままでも、UD-Q8 Qwen3.5-27B全体は収められます!

もしQ8のKVキャッシュでQ4のGemma-4-31B-it-UDを動かす必要があるなら、いっそQwen3.5-27Bを使ったほうがいいです。結局のところ、後者のほうが基本的にほぼすべてのベンチマークで前者を上回ります。

これまでのGemma-4モデルの経験はどうですか?

によって投稿 /u/Iory1998
[リンク] [コメント]