つまり、Vramが40GBあるのに、それでも2Kのコンテキストサイズでさえ、KVを2KコンテキストサイズのQ4に量子化しない限り、Unsloth Gemma-4-31B-it-UD-Q8(35GB)全体を収められません。 WTF? 比較のために言うと、KV量子化なしでフルコンテキストのままでも、UD-Q8 Qwen3.5-27B全体は収められます!
もしQ8のKVキャッシュでQ4のGemma-4-31B-it-UDを動かす必要があるなら、いっそQwen3.5-27Bを使ったほうがいいです。結局のところ、後者のほうが基本的にほぼすべてのベンチマークで前者を上回ります。
これまでのGemma-4モデルの経験はどうですか?
[リンク] [コメント]


