AI Navigate

Qwen3.5-9B 量子化比較

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • これは Qwen3.5-9B の主要な GGUF ファイル全体の量子化スイープを提示し、各オプションを BF16 ベースラインと比較し、KL ダイバージェンスとパープレキシティを用いて選択を導く。
  • KL ダイバージェンスは情報損失のより忠実な指標であり、パープレキシティよりも基準値からのドリフトを反映するため、データセット上のモデルのパープレキシティを反映するだけの指標にはならない、という主張。
  • 具体的な要点を提供: IQ4_XS (4.93 GiB) は VRAM が限られている場合に最適; Q4_K_S (5.18 GiB) は4つの領域で際立つ; bartowski Q4_K_M は通常 unsloth Q4_K_M より良いスコア; lmstudio Q4_K_M は著しく劣る; unsloth UD-Q3_K_XL が全体で最も効率的; Q2/IQ2 量子化は劣る傾向で、テキスト生成時の繰り返しが見られる。
  • データ視覚化と、データ駆動のファイル選択を可能にする追加データへのリンクを含む。
Qwen3.5-9B Quantization Comparison

これは Qwen3.5-9B の主要なコミュニティ GGUF 量子化ファイルを横断した量子化スイープで、BF16 ベースラインに対する平均 KLD を比較します。

目的は、利用可能なファイルを単に取ってくるのではなく、データ駆動型のファイル選択の根拠を人々に提供することです。

KLD (KL Divergence): 「忠実性」。量子化モデルの確率分布がベースライン(元の重みの確率分布)からどれだけずれているかを示します。低いほどベースラインに近いです。

PPL (Perplexity): 次のトークンを予測する際のモデルの平均的不確実性を測定するために使用されます。総情報損失(クロスエントロピー)から導出されます。低いほど自信が高いです。

これらは相関しています。パープレキシティは総誤差を測定しますが、KLD は相対的な誤差を測定します(MoE モデルのルーティングのドリフトのようなもの)。この関係は情報損失(あるいは学習時の情報獲得)を判断するのに役立ちます。私たちはいかに多くの情報を失ったかを見ようとしており、PPL は運次第で良いスコアを出すことがあるためノイズが大きいです。したがって、KLD の方がデータセットに依存せず、ベースラインに依存するため良いとされます。

最も忠実な量子化が必要なら、KLD が最も低いものを選んでください。

注目すべき点:

  • bartowski の IQ4_XS(4.93 GiB、KLD 0.0127)は VRAM が限られていて Q4 未満にしたくない場合の最適オプションです。
  • bartowski の Q4_K_S(5.18 GiB、KLD 0.0108)は 4 ドメインでテストした場合、際立っています。
  • bartowski Q4_K_M と unsloth Q4_K_M は別ファイルです。このモデルで Bartowski のレシピは意味的により良いスコアを出します(0.0087 vs 0.0222)。
  • lmstudio Q4_K_M は両者より顕著に悪いスコアです(0.0353)。
  • unsloth UD-Q3_K_XL が全体で効率性チャートのトップです。
  • Q2/IQ2 量子化は測定上劣っており、テキスト生成テストで見られる繰り返しループはここの KLD 数値と整合します。

https://preview.redd.it/bpgnadasghog1.png?width=3180&format=png&auto=webp&s=adc115d5efdacb1db6d3e37acac561f126789fc7

https://preview.redd.it/bul5lt4xghog1.png?width=3180&format=png&auto=webp&s=84942ffcf53d1fa9fbab25ffe634e639bec745f8

このモデルのトークンレベルの発散可視化も以下で利用できます: HuggingFace Space — Qwen3.5-9B GGUF Quant Drift

https://preview.redd.it/3eutzl50hhog1.png?width=1902&format=png&auto=webp&s=d9a7d65df11ff4ab9e8f7111f1978a92b27a9d75

これは 4 つのドメイン(Code、Math、English、French)にわたる 46 個の量子化すべてについて BF16 からのトークン単位のテキスト発散を示します。これは KLD とは別の角度です。

KLD でソート

46 個の量子化を評価。KLD が低いほど BF16 に近い。

順位 量子化 サイズ (GiB) PPL KLD
1 Q8_0 8.873 7.3057 0.000814
2 unsloth/UD-Q8_K_XL 12.083 7.3041 0.000895
3 unsloth/UD-Q6_K_XL 8.156 7.2948 0.001095
4 bartowski/Q6_K_L 7.622 7.3000 0.001257
5 bartowski/Q6_K 7.163 7.3005 0.001476
6 unsloth/Q6_K 6.946 7.2994 0.001715
7 lmstudio/Q6_K 6.854 7.3128 0.002987
8 bartowski/Q5_K_L 6.848 7.3143 0.003233
9 unsloth/UD-Q5_K_XL 6.281 7.3093 0.003500
10 bartowski/Q5_K_M 6.264 7.3138 0.003590
11 unsloth/Q5_K_M 6.126 7.3180 0.004091
12 bartowski/Q5_K_S 6.032 7.3363 0.004404
13 unsloth/Q5_K_S 5.924 7.3396 0.005007
14 bartowski/Q4_K_L 6.166 7.3190 0.007917
15 unsloth/UD-Q4_K_XL 5.556 7.3078 0.008128
16 bartowski/Q4_K_M 5.463 7.3175 0.008696
17 bartowski/Q4_K_S 5.180 7.3086 0.010793
18 bartowski/Q4_1 5.577 7.3393 0.011472
19 bartowski/IQ4_NL 5.143 7.3236 0.012224
20 bartowski/IQ4_XS 4.925 7.3316 0.012662
21 unsloth/Q4_K_M 5.290 7.3750 0.022202
22 unsloth/Q4_1 5.436 7.4016 0.023635
23 unsloth/Q4_K_S 5.024 7.3752 0.023645
24 unsloth/IQ4_NL 5.002 7.3942 0.024041
25 unsloth/IQ4_XS 4.814 7.3967 0.024365
26 unsloth/UD-Q3_K_XL 4.707 7.3802 0.025065
27 bartowski/Q4_0 5.151 7.4373 0.028936
28 bartowski/Q3_K_XL 5.563 7.4027 0.029657
29 bartowski/Q3_K_L 4.735 7.4176 0.031643
30 bartowski/Q3_K_M 4.540 7.4178 0.033974
31 lmstudio/Q4_K_M 5.241 7.4532 0.035349
32 bartowski/IQ3_M 4.353 7.4997 0.040563
33 unsloth/Q4_0 5.010 7.4900 0.041109
34 unsloth/Q3_K_M 4.353 7.5230 0.048213
35 bartowski/IQ3_XS 4.093 7.5419 0.049630
36 bartowski/IQ3_XXS 3.788 7.6503 0.064547
37 unsloth/UD-IQ3_XXS 3.740 7.7507 0.065003
38 bartowski/Q3_K_S 4.208 7.8231 0.083714
39 unsloth/Q3_K_S 4.020 7.8987 0.096813
40 bartowski/Q2_K_L 4.593 7.8471 0.099799
41 bartowski/Q2_K 3.668 7.8632 0.106153
42 unsloth/UD-Q2_K_XL 3.839 7.9135 0.116282
43 unsloth/UD-IQ2_M 3.399 8.2401 0.133320
44 bartowski/IQ2_M 3.182 8.2487 0.150784
45 bartowski/IQ2_S 2.992 8.6040 0.205225
46 unsloth/UD-IQ2_XXS 2.971 9.1467 0.268681

最も効率的な量子化

Efficiency Score: √(Normalized Size² + Normalized KLD²). Lower is better. Distance from the ideal (zero size, zero KLD). Not the "best" model but the VRAM sweet spot.

Rank Quantization Size (GiB) KLD Eff. Score
1 unsloth/UD-Q3_K_XL 4.707 0.025065 0.210935
2 bartowski/Q3_K_M 4.540 0.033974 0.212071
3 bartowski/IQ3_M 4.353 0.040563 0.212186
4 bartowski/IQ4_XS 4.925 0.012662 0.218957
5 bartowski/IQ3_XS 4.093 0.049630 0.219939
6 unsloth/IQ4_XS 4.814 0.024365 0.220543
7 bartowski/Q3_K_L 4.735 0.031643 0.225218
8 unsloth/Q3_K_M 4.353 0.048213 0.233055
9 unsloth/IQ4_NL 5.002 0.024041 0.239165
10 unsloth/Q4_K_S 5.024 0.023645 0.240890
11 bartowski/IQ4_NL 5.143 0.012224 0.242143
12 bartowski/Q4_K_S 5.180 0.010793 0.245273
13 unsloth/UD-IQ3_XXS 3.740 0.065003 0.254057
14 bartowski/IQ3_XXS 3.788 0.064547 0.254261
15 bartowski/Q4_0 5.151 0.028936 0.261266
16 unsloth/Q4_K_M 5.290 0.022202 0.266731
17 unsloth/Q4_0 5.010 0.041109 0.269634
18 bartowski/Q4_K_M 5.463 0.008696 0.275064
19 lmstudio/Q4_K_M 5.241 0.035349 0.280506
20 unsloth/Q4_1 5.436 0.023635 0.283621
21 unsloth/UD-Q4_K_XL 5.556 0.008128 0.285003
22 bartowski/Q4_1 5.577 0.011472 0.288751
23 bartowski/Q3_K_XL 5.563 0.029657 0.304157
24 unsloth/Q5_K_S 5.924 0.005007 0.324456
25 bartowski/Q5_K_S 6.032 0.004404 0.336198
26 bartowski/Q3_K_S 4.208 0.083714 0.337947
27 unsloth/Q5_K_M 6.126 0.004091 0.346463
28 bartowski/Q4_K_L 6.166 0.007917 0.351638
29 bartowski/Q5_K_M 6.264 0.003590 0.361540
30 unsloth/UD-Q5_K_XL 6.281 0.003500 0.363396
31 unsloth/Q3_K_S 4.020 0.096813 0.376420
32 bartowski/Q2_K 3.668 0.106153 0.400621
33 bartowski/Q2_K_L 4.593 0.099799 0.410170
34 bartowski/Q5_K_L 6.848 0.003233 0.425579
35 lmstudio/Q6_K 6.854 0.002987 0.426219
36 unsloth/Q6_K 6.946 0.001715 0.436251
37 unsloth/UD-Q2_K_XL 3.839 0.116282 0.441465
38 bartowski/Q6_K 7.163 0.001476 0.460059
39 unsloth/UD-IQ2_M 3.399 0.133320 0.496896
40 bartowski/Q6_K_L 7.622 0.001257 0.510428
41 bartowski/IQ2_M 3.182 0.150784 0.560346
42 unsloth/UD-Q6_K_XL 8.156 0.001095 0.569031
43 baseline/Q8_0 8.873 0.000814 0.647717
44 bartowski/IQ2_S 2.992 0.205225 0.763110
45 unsloth/UD-IQ2_XXS 2.971 0.268681 1.000000
46 unsloth/UD-Q8_K_XL 12.083 0.000895 1.000000

Notes

Evaluated on titwitMuffbiscuit-v03-full.txt, a chat-wrapped corpus (Qwen3.5 ChatML format), 47 chunks -c 512. Content: Science & engineering, Medicine, Philosophy, History, Finance, Culture, multilingual content and code snippets.

Hardware: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB
Software: llama.cpp version: 8239 (cd18a50ea), Nvidia drivers: 591.85, Windows 11 26100.7840

The scripts I used that has NOT been tested extensively, beware!
KLDスイープ , トークンドリフト可視化

To check KLD divergence, run:
llama-perplexity -m <bf16_model> -f wiki.test.raw --kl-divergence-base <file_name> [other parameters]
llama-perplexity -m <quantized_model> --kl-divergence-base <file_name> --kl-divergence [other parameters]

Qwen3.5-9B-bf16.gguf: PPL = 7.3005 +/- 0.07014

submitted by /u/TitwitMuffbiscuit
[link] [comments]