Qwen3.5-9B 量子化比較

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

これは Qwen3.5-9B の主要な GGUF ファイル全体の量子化スイープを提示し、各オプションを BF16 ベースラインと比較し、KL ダイバージェンスとパープレキシティを用いて選択を導く。
KL ダイバージェンスは情報損失のより忠実な指標であり、パープレキシティよりも基準値からのドリフトを反映するため、データセット上のモデルのパープレキシティを反映するだけの指標にはならない、という主張。
具体的な要点を提供: IQ4_XS (4.93 GiB) は VRAM が限られている場合に最適； Q4_K_S (5.18 GiB) は4つの領域で際立つ； bartowski Q4_K_M は通常 unsloth Q4_K_M より良いスコア； lmstudio Q4_K_M は著しく劣る； unsloth UD-Q3_K_XL が全体で最も効率的； Q2/IQ2 量子化は劣る傾向で、テキスト生成時の繰り返しが見られる。
データ視覚化と、データ駆動のファイル選択を可能にする追加データへのリンクを含む。

これは Qwen3.5-9B の主要なコミュニティ GGUF 量子化ファイルを横断した量子化スイープで、BF16 ベースラインに対する平均 KLD を比較します。

目的は、利用可能なファイルを単に取ってくるのではなく、データ駆動型のファイル選択の根拠を人々に提供することです。

KLD (KL Divergence): 「忠実性」。量子化モデルの確率分布がベースライン（元の重みの確率分布）からどれだけずれているかを示します。低いほどベースラインに近いです。

PPL (Perplexity): 次のトークンを予測する際のモデルの平均的不確実性を測定するために使用されます。総情報損失（クロスエントロピー）から導出されます。低いほど自信が高いです。

これらは相関しています。パープレキシティは総誤差を測定しますが、KLD は相対的な誤差を測定します（MoE モデルのルーティングのドリフトのようなもの）。この関係は情報損失（あるいは学習時の情報獲得）を判断するのに役立ちます。私たちはいかに多くの情報を失ったかを見ようとしており、PPL は運次第で良いスコアを出すことがあるためノイズが大きいです。したがって、KLD の方がデータセットに依存せず、ベースラインに依存するため良いとされます。

最も忠実な量子化が必要なら、KLD が最も低いものを選んでください。

注目すべき点:

bartowski の IQ4_XS（4.93 GiB、KLD 0.0127）は VRAM が限られていて Q4 未満にしたくない場合の最適オプションです。
bartowski の Q4_K_S（5.18 GiB、KLD 0.0108）は 4 ドメインでテストした場合、際立っています。
bartowski Q4_K_M と unsloth Q4_K_M は別ファイルです。このモデルで Bartowski のレシピは意味的により良いスコアを出します（0.0087 vs 0.0222）。
lmstudio Q4_K_M は両者より顕著に悪いスコアです（0.0353）。
unsloth UD-Q3_K_XL が全体で効率性チャートのトップです。
Q2/IQ2 量子化は測定上劣っており、テキスト生成テストで見られる繰り返しループはここの KLD 数値と整合します。

https://preview.redd.it/bpgnadasghog1.png?width=3180&format=png&auto=webp&s=adc115d5efdacb1db6d3e37acac561f126789fc7

https://preview.redd.it/bul5lt4xghog1.png?width=3180&format=png&auto=webp&s=84942ffcf53d1fa9fbab25ffe634e639bec745f8

このモデルのトークンレベルの発散可視化も以下で利用できます: HuggingFace Space — Qwen3.5-9B GGUF Quant Drift

https://preview.redd.it/3eutzl50hhog1.png?width=1902&format=png&auto=webp&s=d9a7d65df11ff4ab9e8f7111f1978a92b27a9d75

これは 4 つのドメイン（Code、Math、English、French）にわたる 46 個の量子化すべてについて BF16 からのトークン単位のテキスト発散を示します。これは KLD とは別の角度です。

KLD でソート

46 個の量子化を評価。KLD が低いほど BF16 に近い。

順位	量子化	サイズ (GiB)	PPL	KLD
1	Q8_0	8.873	7.3057	0.000814
2	unsloth/UD-Q8_K_XL	12.083	7.3041	0.000895
3	unsloth/UD-Q6_K_XL	8.156	7.2948	0.001095
4	bartowski/Q6_K_L	7.622	7.3000	0.001257
5	bartowski/Q6_K	7.163	7.3005	0.001476
6	unsloth/Q6_K	6.946	7.2994	0.001715
7	lmstudio/Q6_K	6.854	7.3128	0.002987
8	bartowski/Q5_K_L	6.848	7.3143	0.003233
9	unsloth/UD-Q5_K_XL	6.281	7.3093	0.003500
10	bartowski/Q5_K_M	6.264	7.3138	0.003590
11	unsloth/Q5_K_M	6.126	7.3180	0.004091
12	bartowski/Q5_K_S	6.032	7.3363	0.004404
13	unsloth/Q5_K_S	5.924	7.3396	0.005007
14	bartowski/Q4_K_L	6.166	7.3190	0.007917
15	unsloth/UD-Q4_K_XL	5.556	7.3078	0.008128
16	bartowski/Q4_K_M	5.463	7.3175	0.008696
17	bartowski/Q4_K_S	5.180	7.3086	0.010793
18	bartowski/Q4_1	5.577	7.3393	0.011472
19	bartowski/IQ4_NL	5.143	7.3236	0.012224
20	bartowski/IQ4_XS	4.925	7.3316	0.012662
21	unsloth/Q4_K_M	5.290	7.3750	0.022202
22	unsloth/Q4_1	5.436	7.4016	0.023635
23	unsloth/Q4_K_S	5.024	7.3752	0.023645
24	unsloth/IQ4_NL	5.002	7.3942	0.024041
25	unsloth/IQ4_XS	4.814	7.3967	0.024365
26	unsloth/UD-Q3_K_XL	4.707	7.3802	0.025065
27	bartowski/Q4_0	5.151	7.4373	0.028936
28	bartowski/Q3_K_XL	5.563	7.4027	0.029657
29	bartowski/Q3_K_L	4.735	7.4176	0.031643
30	bartowski/Q3_K_M	4.540	7.4178	0.033974
31	lmstudio/Q4_K_M	5.241	7.4532	0.035349
32	bartowski/IQ3_M	4.353	7.4997	0.040563
33	unsloth/Q4_0	5.010	7.4900	0.041109
34	unsloth/Q3_K_M	4.353	7.5230	0.048213
35	bartowski/IQ3_XS	4.093	7.5419	0.049630
36	bartowski/IQ3_XXS	3.788	7.6503	0.064547
37	unsloth/UD-IQ3_XXS	3.740	7.7507	0.065003
38	bartowski/Q3_K_S	4.208	7.8231	0.083714
39	unsloth/Q3_K_S	4.020	7.8987	0.096813
40	bartowski/Q2_K_L	4.593	7.8471	0.099799
41	bartowski/Q2_K	3.668	7.8632	0.106153
42	unsloth/UD-Q2_K_XL	3.839	7.9135	0.116282
43	unsloth/UD-IQ2_M	3.399	8.2401	0.133320
44	bartowski/IQ2_M	3.182	8.2487	0.150784
45	bartowski/IQ2_S	2.992	8.6040	0.205225
46	unsloth/UD-IQ2_XXS	2.971	9.1467	0.268681

最も効率的な量子化

Efficiency Score: √(Normalized Size² + Normalized KLD²). Lower is better. Distance from the ideal (zero size, zero KLD). Not the "best" model but the VRAM sweet spot.

Rank	Quantization	Size (GiB)	KLD	Eff. Score
1	unsloth/UD-Q3_K_XL	4.707	0.025065	0.210935
2	bartowski/Q3_K_M	4.540	0.033974	0.212071
3	bartowski/IQ3_M	4.353	0.040563	0.212186
4	bartowski/IQ4_XS	4.925	0.012662	0.218957
5	bartowski/IQ3_XS	4.093	0.049630	0.219939
6	unsloth/IQ4_XS	4.814	0.024365	0.220543
7	bartowski/Q3_K_L	4.735	0.031643	0.225218
8	unsloth/Q3_K_M	4.353	0.048213	0.233055
9	unsloth/IQ4_NL	5.002	0.024041	0.239165
10	unsloth/Q4_K_S	5.024	0.023645	0.240890
11	bartowski/IQ4_NL	5.143	0.012224	0.242143
12	bartowski/Q4_K_S	5.180	0.010793	0.245273
13	unsloth/UD-IQ3_XXS	3.740	0.065003	0.254057
14	bartowski/IQ3_XXS	3.788	0.064547	0.254261
15	bartowski/Q4_0	5.151	0.028936	0.261266
16	unsloth/Q4_K_M	5.290	0.022202	0.266731
17	unsloth/Q4_0	5.010	0.041109	0.269634
18	bartowski/Q4_K_M	5.463	0.008696	0.275064
19	lmstudio/Q4_K_M	5.241	0.035349	0.280506
20	unsloth/Q4_1	5.436	0.023635	0.283621
21	unsloth/UD-Q4_K_XL	5.556	0.008128	0.285003
22	bartowski/Q4_1	5.577	0.011472	0.288751
23	bartowski/Q3_K_XL	5.563	0.029657	0.304157
24	unsloth/Q5_K_S	5.924	0.005007	0.324456
25	bartowski/Q5_K_S	6.032	0.004404	0.336198
26	bartowski/Q3_K_S	4.208	0.083714	0.337947
27	unsloth/Q5_K_M	6.126	0.004091	0.346463
28	bartowski/Q4_K_L	6.166	0.007917	0.351638
29	bartowski/Q5_K_M	6.264	0.003590	0.361540
30	unsloth/UD-Q5_K_XL	6.281	0.003500	0.363396
31	unsloth/Q3_K_S	4.020	0.096813	0.376420
32	bartowski/Q2_K	3.668	0.106153	0.400621
33	bartowski/Q2_K_L	4.593	0.099799	0.410170
34	bartowski/Q5_K_L	6.848	0.003233	0.425579
35	lmstudio/Q6_K	6.854	0.002987	0.426219
36	unsloth/Q6_K	6.946	0.001715	0.436251
37	unsloth/UD-Q2_K_XL	3.839	0.116282	0.441465
38	bartowski/Q6_K	7.163	0.001476	0.460059
39	unsloth/UD-IQ2_M	3.399	0.133320	0.496896
40	bartowski/Q6_K_L	7.622	0.001257	0.510428
41	bartowski/IQ2_M	3.182	0.150784	0.560346
42	unsloth/UD-Q6_K_XL	8.156	0.001095	0.569031
43	baseline/Q8_0	8.873	0.000814	0.647717
44	bartowski/IQ2_S	2.992	0.205225	0.763110
45	unsloth/UD-IQ2_XXS	2.971	0.268681	1.000000
46	unsloth/UD-Q8_K_XL	12.083	0.000895	1.000000

Notes

Evaluated on titwitMuffbiscuit-v03-full.txt, a chat-wrapped corpus (Qwen3.5 ChatML format), 47 chunks -c 512. Content: Science & engineering, Medicine, Philosophy, History, Finance, Culture, multilingual content and code snippets.

Hardware: i3-12100F, 64GB DDR4-3200, RTX 3060 12GB
Software: llama.cpp version: 8239 (cd18a50ea), Nvidia drivers: 591.85, Windows 11 26100.7840

The scripts I used that has NOT been tested extensively, beware!
KLDスイープ , トークンドリフト可視化

To check KLD divergence, run:
llama-perplexity -m <bf16_model> -f wiki.test.raw --kl-divergence-base <file_name> [other parameters]
llama-perplexity -m <quantized_model> --kl-divergence-base <file_name> --kl-divergence [other parameters]

Qwen3.5-9B-bf16.gguf: PPL = 7.3005 +/- 0.07014

submitted by /u/TitwitMuffbiscuit
[link] [comments]

Visual Studio Code拡張機能

Azure OpenAI Service ドキュメント

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

AIを活用して1日で1か月分のコンテンツを作成する方法（ステップバイステップ・システム）

Dev.to

Qwen3.5-9B 量子化比較

要点

KLD でソート

最も効率的な量子化

Notes

関連記事

Visual Studio Code拡張機能

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

AIを活用して1日で1か月分のコンテンツを作成する方法（ステップバイステップ・システム）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer