https://github.com/ggml-org/llama.cpp/pull/21038
いまキャッシュ量子化の品質が良くなったのですが、ということはQ8キャッシュは今でも良い選択でしょうか?たとえば26BのGemma4の場合は?
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/4/14
https://github.com/ggml-org/llama.cpp/pull/21038
いまキャッシュ量子化の品質が良くなったのですが、ということはQ8キャッシュは今でも良い選択でしょうか?たとえば26BのGemma4の場合は?