現在、qwen3.5 と Gemma 4 のモデルを利用しています。
Gemma 4 では、同じコンテキスト長に対して 2 倍の RAM が必要だということに気づきました。
私の理解では、ターボ量子化(turbo quant)が行うのは、KV キャッシュを約 4 ビットに量子化して損失を最小化することです。
ただし Q8 でもコンテキストがそれほど失われないのであれば、qwen 3.5 の q8 と Gemma 4 の turboquant で、KV キャッシュの RAM に関しては同じではないのですか?
ターボ量子化は qwen のキャッシュ・アーキテクチャでも適用可能なのでしょうか。というのも、私の知る限り、彼らの論文では qwen3.5 の方式の KV キャッシュでそれを試してはいないようだからです。
ただの好奇心です。最近ローカル LLM を学び始めました。
[リンク] [コメント]




