これは Qwen3.5-9B の主要なコミュニティ GGUF 量子化ファイルを横断した量子化スイープで、BF16 ベースラインに対する平均 KLD を比較します。
目的は、利用可能なファイルを単に取ってくるのではなく、データ駆動型のファイル選択の根拠を人々に提供することです。
KLD (KL Divergence): 「忠実性」。量子化モデルの確率分布がベースライン(元の重みの確率分布)からどれだけずれているかを示します。低いほどベースラインに近いです。
PPL (Perplexity): 次のトークンを予測する際のモデルの平均的不確実性を測定するために使用されます。総情報損失(クロスエントロピー)から導出されます。低いほど自信が高いです。
これらは相関しています。パープレキシティは総誤差を測定しますが、KLD は相対的な誤差を測定します(MoE モデルのルーティングのドリフトのようなもの)。この関係は情報損失(あるいは学習時の情報獲得)を判断するのに役立ちます。私たちはいかに多くの情報を失ったかを見ようとしており、PPL は運次第で良いスコアを出すことがあるためノイズが大きいです。したがって、KLD の方がデータセットに依存せず、ベースラインに依存するため良いとされます。
最も忠実な量子化が必要なら、KLD が最も低いものを選んでください。
注目すべき点:
- bartowski の IQ4_XS(4.93 GiB、KLD 0.0127)は VRAM が限られていて Q4 未満にしたくない場合の最適オプションです。
- bartowski の Q4_K_S(5.18 GiB、KLD 0.0108)は 4 ドメインでテストした場合、際立っています。
- bartowski Q4_K_M と unsloth Q4_K_M は別ファイルです。このモデルで Bartowski のレシピは意味的により良いスコアを出します(0.0087 vs 0.0222)。
- lmstudio Q4_K_M は両者より顕著に悪いスコアです(0.0353)。
- unsloth UD-Q3_K_XL が全体で効率性チャートのトップです。
- Q2/IQ2 量子化は測定上劣っており、テキスト生成テストで見られる繰り返しループはここの KLD 数値と整合します。
https://preview.redd.it/bpgnadasghog1.png?width=3180&format=png&auto=webp&s=adc115d5efdacb1db6d3e37acac561f126789fc7
https://preview.redd.it/bul5lt4xghog1.png?width=3180&format=png&auto=webp&s=84942ffcf53d1fa9fbab25ffe634e639bec745f8
このモデルのトークンレベルの発散可視化も以下で利用できます: HuggingFace Space — Qwen3.5-9B GGUF Quant Drift
https://preview.redd.it/3eutzl50hhog1.png?width=1902&format=png&auto=webp&s=d9a7d65df11ff4ab9e8f7111f1978a92b27a9d75
これは 4 つのドメイン(Code、Math、English、French)にわたる 46 個の量子化すべてについて BF16 からのトークン単位のテキスト発散を示します。これは KLD とは別の角度です。
KLD でソート
46 個の量子化を評価。KLD が低いほど BF16 に近い。
| 順位 | 量子化 | サイズ (GiB) | PPL | KLD |
| 1 | Q8_0 | 8.873 | 7.3057 | 0.000814 |
| 2 | unsloth/UD-Q8_K_XL | 12.083 | 7.3041 | 0.000895 |
| 3 | unsloth/UD-Q6_K_XL | 8.156 | 7.2948 | 0.001095 |
| 4 | bartowski/Q6_K_L | 7.622 | 7.3000 | 0.001257 |
| 5 | bartowski/Q6_K | 7.163 | 7.3005 | 0.001476 |
| 6 | unsloth/Q6_K | 6.946 | 7.2994 | 0.001715 |
| 7 | lmstudio/Q6_K | 6.854 | 7.3128 | 0.002987 |
| 8 | bartowski/Q5_K_L | 6.848 | 7.3143 | 0.003233 |
| 9 | unsloth/UD-Q5_K_XL | 6.281 | 7.3093 | 0.003500 |
| 10 | bartowski/Q5_K_M | 6.264 | 7.3138 | 0.003590 |
| 11 | unsloth/Q5_K_M | 6.126 | 7.3180 | 0.004091 |
| 12 | bartowski/Q5_K_S | 6.032 | 7.3363 | 0.004404 |
| 13 | unsloth/Q5_K_S | 5.924 | 7.3396 | 0.005007 |
| 14 | bartowski/Q4_K_L | 6.166 | 7.3190 | 0.007917 |
| 15 | unsloth/UD-Q4_K_XL | 5.556 | 7.3078 | 0.008128 |
| 16 | bartowski/Q4_K_M | 5.463 | 7.3175 | 0.008696 |
| 17 | bartowski/Q4_K_S | 5.180 | 7.3086 | 0.010793 |
| 18 | bartowski/Q4_1 | 5.577 | 7.3393 | 0.011472 |
| 19 | bartowski/IQ4_NL | 5.143 | 7.3236 | 0.012224 |
| 20 | bartowski/IQ4_XS | 4.925 | 7.3316 | 0.012662 |
| 21 | unsloth/Q4_K_M | 5.290 | 7.3750 | 0.022202 |
| 22 | unsloth/Q4_1 | 5.436 | 7.4016 | 0.023635 |
| 23 | unsloth/Q4_K_S | 5.024 | 7.3752 | 0.023645 |
| 24 | unsloth/IQ4_NL | 5.002 | 7.3942 | 0.024041 |
| 25 | unsloth/IQ4_XS | 4.814 | 7.3967 | 0.024365 |
| 26 | unsloth/UD-Q3_K_XL | 4.707 | 7.3802 | 0.025065 |
| 27 | bartowski/Q4_0 | 5.151 | 7.4373 | 0.028936 |
| 28 | bartowski/Q3_K_XL | 5.563 | 7.4027 | 0.029657 |
| 29 | bartowski/Q3_K_L | 4.735 | 7.4176 | 0.031643 |
| 30 | bartowski/Q3_K_M | 4.540 | 7.4178 | 0.033974 |
| 31 | lmstudio/Q4_K_M | 5.241 | 7.4532 | 0.035349 |
| 32 | bartowski/IQ3_M | 4.353 | 7.4997 | 0.040563 |
| 33 | unsloth/Q4_0 | 5.010 | 7.4900 | 0.041109 |
| 34 | unsloth/Q3_K_M | 4.353 | 7.5230 | 0.048213 |
| 35 | bartowski/IQ3_XS | 4.093 | 7.5419 | 0.049630 |
| 36 | bartowski/IQ3_XXS | 3.788 | 7.6503 | 0.064547 |
| 37 | unsloth/UD-IQ3_XXS | 3.740 | 7.7507 | 0.065003 |
| 38 | bartowski/Q3_K_S | 4.208 | 7.8231 | 0.083714 |
| 39 | unsloth/Q3_K_S | 4.020 | 7.8987 | 0.096813 |
| 40 | bartowski/Q2_K_L | 4.593 | 7.8471 | 0.099799 |
| 41 | bartowski/Q2_K | 3.668 | 7.8632 | 0.106153 |
| 42 | unsloth/UD-Q2_K_XL | 3.839 | 7.9135 | 0.116282 |
| 43 | unsloth/UD-IQ2_M | 3.399 | 8.2401 | 0.133320 |
| 44 | bartowski/IQ2_M | 3.182 | 8.2487 | 0.150784 |
| 45 | bartowski/IQ2_S | 2.992 | 8.6040 | 0.205225 |
| 46 | unsloth/UD-IQ2_XXS | 2.971 | 9.1467 | 0.268681 |
最も効率的な量子化
Efficiency Score: √(Normalized Size² + Normalized KLD²). Lower is better. Distance from the ideal (zero size, zero KLD). Not the "best" model but the VRAM sweet spot.
| Rank | Quantization | Size (GiB) | KLD | Eff. Score |
| 1 | unsloth/UD-Q3_K_XL | 4.707 | 0.025065 | 0.210935 |
| 2 | bartowski/Q3_K_M | 4.540 | 0.033974 | 0.212071 |
| 3 | bartowski/IQ3_M | 4.353 | 0.040563 | 0.212186 |
| 4 | bartowski/IQ4_XS | 4.925 | 0.012662 | 0.218957 |
| 5 | bartowski/IQ3_XS | 4.093 | 0.049630 | 0.219939 |
| 6 | unsloth/IQ4_XS | 4.814 | 0.024365 | 0.220543 |
| 7 | bartowski/Q3_K_L | 4.735 | 0.031643 | 0.225218 |
| 8 | unsloth/Q3_K_M | 4.353 | 0.048213 | 0.233055 |
| 9 | unsloth/IQ4_NL | 5.002 | 0.024041 | 0.239165 |
| 10 | unsloth/Q4_K_S | 5.024 | 0.023645 | 0.240890 |
| 11 | bartowski/IQ4_NL | 5.143 | 0.012224 | 0.242143 |
| 12 | bartowski/Q4_K_S | 5.180 | 0.010793 | 0.245273 |
| 13 | unsloth/UD-IQ3_XXS | 3.740 | 0.065003 | 0.254057 |
| 14 | bartowski/IQ3_XXS | 3.788 | 0.064547 | 0.254261 |
| 15 | bartowski/Q4_0 | 5.151 | 0.028936 | 0.261266 |
| 16 | unsloth/Q4_K_M | 5.290 | 0.022202 | 0.266731 |
| 17 | unsloth/Q4_0 | 5.010 | 0.041109 | 0.269634 |
| 18 | bartowski/Q4_K_M | 5.463 | 0.008696 | 0.275064 |
| 19 | lmstudio/Q4_K_M | 5.241 | 0.035349 | 0.280506 |
| 20 | unsloth/Q4_1 | 5.436 | 0.023635 | 0.283621 |
| 21 | unsloth/UD-Q4_K_XL | 5.556 | 0.008128 | 0.285003 |
| 22 | bartowski/Q4_1 | 5.577 | 0.011472 | 0.288751 |
| 23 | bartowski/Q3_K_XL | 5.563 | 0.029657 | 0.304157 |
| 24 | unsloth/Q5_K_S | 5.924 | 0.005007 | 0.324456 |
| 25 | bartowski/Q5_K_S | 6.032 | 0.004404 | 0.336198 |
| 26 | bartowski/Q3_K_S | 4.208 | 0.083714 | 0.337947 |
| 27 | unsloth/Q5_K_M | 6.126 | 0.004091 | 0.346463 |
| 28 | bartowski/Q4_K_L | 6.166 | 0.007917 | 0.351638 |
| 29 | bartowski/Q5_K_M | 6.264 | 0.003590 | 0.361540 |
| 30 | unsloth/UD-Q5_K_XL | 6.281 | 0.003500 | 0.363396 |
| 31 | unsloth/Q3_K_S | 4.020 | 0.096813 | 0.376420 |
| 32 | bartowski/Q2_K | 3.668 | 0.106153 | 0.400621 |
| 33 | bartowski/Q2_K_L | 4.593 | 0.099799 | 0.410170 |
| 34 | bartowski/Q5_K_L | 6.848 | 0.003233 | 0.425579 |
| 35 | lmstudio/Q6_K | 6.854 | 0.002987 | 0.426219 |
| 36 | unsloth/Q6_K | 6.946 | 0.001715 | 0.436251 |
| 37 | unsloth/UD-Q2_K_XL | 3.839 | 0.116282 | 0.441465 |
| 38 | bartowski/Q6_K | 7.163 | 0.001476 | 0.460059 |
| 39 | unsloth/UD-IQ2_M | 3.399 | 0.133320 | 0.496896 |
| 40 | bartowski/Q6_K_L | 7.622 | 0.001257 | 0.510428 |
| 41 | bartowski/IQ2_M | 3.182 | 0.150784 | 0.560346 |
| 42 | unsloth/UD-Q6_K_XL | 8.156 | 0.001095 | 0.569031 |
| 43 | baseline/Q8_0 | 8.873 | 0.000814 | 0.647717 |
| 44 | bartowski/IQ2_S | 2.992 | 0.205225 | 0.763110 |
| 45 | unsloth/UD-IQ2_XXS | 2.971 | 0.268681 | 1.000000 |
| 46 | unsloth/UD-Q8_K_XL | 12.083 | 0.000895 | 1.000000 |
Notes
Evaluated on titwitMuffbiscuit-v03-full.txt, a chat-wrapped corpus (Qwen3.5 ChatML format), 47 chunks -c 512. Content: Science & engineering, Medicine, Philosophy, History, Finance, Culture, multilingual content and code snippets.
Hardware: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB
Software: llama.cpp version: 8239 (cd18a50ea), Nvidia drivers: 591.85, Windows 11 26100.7840
The scripts I used that has NOT been tested extensively, beware!
KLDスイープ , トークンドリフト可視化
To check KLD divergence, run:
llama-perplexity -m <bf16_model> -f wiki.test.raw --kl-divergence-base <file_name> [other parameters]
llama-perplexity -m <quantized_model> --kl-divergence-base <file_name> --kl-divergence [other parameters]
Qwen3.5-9B-bf16.gguf: PPL = 7.3005 +/- 0.07014
submitted by