q8_0 / q4_0のKVキャッシュで比較したGemma 4とQwen 3.6：KLダイバージェンス結果

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿は、KVキャッシュの量子化設定（q8_0とq4_0）を変えた場合におけるGemma 4とQwen 3.6のKLダイバージェンス結果のベンチマークについて扱っています。
LocalBench/Substackの記事へのリンクがあり、KVキャッシュ圧縮によってモデル挙動がどう変わるかの手法や観測結果が説明されていると考えられます。
比較の主眼は学習の変更ではなく、出力分布の類似度をKLダイバージェンスで測って、KVキャッシュ量子化がどんな影響を与えるかにあります。
対象は、KVキャッシュのビット幅を下げることに伴うローカル推論の効率（速度・メモリ）と精度のトレードオフです。