Qwen3.5-35B GGUF量子化(16–22 GiB) - KLDと速度比較

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FP16と比較するため、Qwen3.5-35B-A3B GGUF量子化(16–22 GiB)のKullback-Leibler距離(KLD)を評価する。分布の類似性を測定するには、FLORES 200とcalibration_data_v5_rc.txtから構成した混合データセットを使用した。
  • KLDの平均とKLDの99%でソートされた2つの表を提示し、モデルをベースラインと比較している。UnslothのQwenモデルに関するブログ投稿のアプローチを踏襲している。
  • TG/sのスピード測定では、最も遅いモデルはUD-Q3_K_XLで約105 t/s、最も速いのはMungertのiq4_nlで約143 t/sだった。設定は、Intel CPU、RTX 3090、CUDA Driver 580.126.18を搭載したLinux環境で、llama-benchを用い、10kのコンテキスト長を使用した。
  • 著者は単一の勝者を宣言することを避け、読者は特にGPU資源が乏しい環境での制約に基づいて選択すべきだと強調しており、結果はサイズとコストに対して相対的に高い性能を示すモデルを浮き彫りにしている点に留意している。

Qwen3.5-35B GGUF 量子化(16–22 GiB)- KLDと速度の比較

さらなるベンチマークをお届けします。Hugging Face で入手可能な実際の Qwen3.5-35B-A3B GGUF 量子化(16–22 GiB)の KLD 発散をベンチマークしました。

KLD: Kullback-Leibler 発散は、FP16 と量子化後のロジット分布がどれだけ類似しているかを、参照コーパス上で量子化モデルと FP16 基準の確率分布の差を測定することで示します。

u/TitwitMuffbiscuit はこれに挑戦しました しかし、公開からしばらくして彼が測定を公開した後、すべてのモデルが更新されてしまいました。

この研究では、英語の Wikitext-2 テストデータセットを使用せず、代わりに多言語データセット FLORES 200 を用い、ランダムに選択した言語の行を跨る700 KB の行を抽出しました。さらに、約400KB のサイズを持つ別の興味深いデータセット calibration_data_v5_rc.txt を見つけ、プログラミング、数学、構文の例、技術テキスト など といった多くの興味深いトピックを含んでいます。これら2つのデータセットを 混合データセット に統合して KLD ベースライン を作成し、このベースラインを用いて見つけたすべてのモデルの KLD 距離を測定しました。

従来の「KLD平均」値で並べ替えられた表と、「KLD 99%」値で並べ替えられた表の2つを作成しました。Unsloth が最新の ブログ投稿 で公開した Qwen モデルに関するグラフと似ています。

ここで勝者を宣言するつもりはありません。GPU が貧弱であるという非常に特定の制約を踏まえると、それはあなた次第です。重量級のモデルを打ち負かしているモデルを視覚的に把握しやすくするため、実際のモデルの数値と下のモデルを比較し、選択した指標に基づいて低い場合は太字、高い場合は太字で表示します。

PP/s(プロンプト処理)と TG/s(トークン生成)列は、ほとんどのユーザーには意味をなしにくい、非常に具体的な数値です。これらの数値を利用するには Intel CPURTX 3090 GPU(Ampere)、および Linux と Cuda Driver Version 580.126.18 を用いる必要があります。私はコンテキスト長を 10k に設定した llama-bench を使ってこれらの数値を取得しました。

例えば TG/s の速度を見てみると、Unsloth の UD-Q3_K_XL は最後の更新前で最も遅く、生成速度は約 105t/s、最速なのは Mungert の iq4_nl で約 143 t/s で、私の特定アーキテクチャではトークン生成速度の総変動が 36.2% となり、非常に高く、いわゆる最適モデルを定義するのが難しい理由の1つとなっています。

注: 表中の cmp-nct で接頭辞を持つモデルは、最新版のアップロード前に私が見つけた古い Unsloth の量子化データの mirror の実体で、私も測定したかったものです。

KLD平均で並べ替え

モデル KLD平均 GiB PP/s TG/s
unsloth_UD-Q4_K_XL 0.016158 20.70 2812.949429 122.616934
AesSedai_Q4_K_M 0.016308 20.62 2966.807082 123.676699
unsloth_Q4_K_M 0.016708 20.49 2821.819502 123.910904
bartowski_Q4_K_L 0.020222 20.27 2809.591483 130.155778
unsloth_Q4_K_S 0.020469 19.24 2838.399411 124.346442
bartowski_Q4_K_M 0.022723 19.92 2806.437093 131.632558
cmp-nct_UD-Q4_K_XL 0.022863 19.16 2861.949731 125.816493
ubergarm_Q4_0 0.024576 19.78 2876.503157 124.357224
unsloth_UD-Q4_K_L 0.024691 18.81 2861.777605 131.242261
bartowski_Q4_K_S 0.025161 19.19 2849.248198 134.693183
Mungert_q4_k_m 0.026718 20.08 2812.234371 137.328114
cmp-nct_UD-Q4_K_M 0.030445 18.48 2840.653679 136.462817
bartowski_Q4_1 0.030681 20.45 2831.282134 136.927623
bartowski_IQ4_NL 0.032332 18.50 2981.250713 137.735717
bartowski_IQ4_XS 0.032829 17.52 3017.103823 135.980487
AesSedai_IQ4_XS 0.037086 16.40 3016.284929 120.057024
unsloth_UD-IQ4_NL 0.037691 16.59 2850.872626 123.322993
unsloth_UD-IQ4_XS 0.037835 16.28 2855.705903 121.589312
bartowski_Q4_0 0.040627 18.80 2921.368478 137.152109
Mungert_iq4_nl 0.040920 18.36 2996.884610 140.422106
Mungert_iq4_xs 0.042396 17.37 3042.389900 139.850819
Mungert_q4_1 0.045873 20.26 2833.595098 143.116543
cmp-nct_UD-Q3_K_XL 0.048064 16.05 2739.799015 105.006853
Mungert_iq3_m 0.049971 16.58 2871.107320 138.612701
Mungert_iq3_s 0.049971 16.58 2874.769301 139.805846
bartowski_Q3_K_XL 0.061445 16.13 2660.731996 123.457777
Mungert_q3_k_m 0.061488 16.29 2710.267499 131.202303
Mungert_q4_0 0.084376 18.24 2956.897238 143.063168

KLD 99%で並べ替え

モデル KLD 99% GiB PP/s TG/s
unsloth_UD-Q4_K_XL 0.145385 20.70 2812.949429 122.616934
AesSedai_Q4_K_M 0.147057 20.62 2966.807082 123.676699
unsloth_Q4_K_M 0.147594 20.49 2821.819502 123.910904
unsloth_Q4_K_S 0.177634 19.24 2838.399411 124.346442
bartowski_Q4_K_L 0.179187 20.27 2809.591483 130.155778
cmp-nct_UD-Q4_K_XL 0.191735 19.16 2861.949731 125.816493
bartowski_Q4_K_M 0.205318 19.92 2806.437093 131.632558
unsloth_UD-Q4_K_L 0.208308 18.81 2861.777605 131.242261
ubergarm_Q4_0 0.222435 19.78 2876.503157 124.357224
bartowski_Q4_K_S 0.227099 19.19 2849.248198 134.693183
Mungert_q4_k_m 0.235314 20.08 2812.234371 137.328114
cmp-nct_UD-Q4_K_M 0.252636 18.48 2840.653679 136.462817
bartowski_Q4_1 0.264378 20.45 2831.282134 136.927623
bartowski_IQ4_NL 0.284880 18.50 2981.250713 137.735717
bartowski_IQ4_XS 0.289398 17.52 3017.103823 135.980487
unsloth_UD-IQ4_NL 0.311913 16.59 2850.872626 123.322993
AesSedai_IQ4_XS 0.312924 16.40 3016.284929 120.057024
unsloth_UD-IQ4_XS 0.316742 16.28 2855.705903 121.589312
Mungert_q4_1 0.335030 20.26 2833.595098 143.116543
bartowski_Q4_0 0.351119 18.80 2921.368478 137.152109
137.152109 Mungert_iq4_nl 0.362384 18.36 2996.884610 140.422106 Mungert_iq4_xs 0.376657 17.37 3042.389900 139.850819 cmp-nct_UD-Q3_K_XL 0.396947 16.05 2739.799015 105.006853 Mungert_iq3_m 0.409071 16.58 2871.107320 138.612701 Mungert_iq3_s 0.409071 16.58 2874.769301 139.805846 bartowski_Q3_K_XL 0.500855 16.13 2660.731996 123.457777 Mungert_q3_k_m 0.506792 16.29 2710.267499 131.202303 Mungert_q4_0 0.748218 18.24 2956.897238 143.063168

編集: 忘れてしまったモデルを含めたい場合は、測定してほしいモデルへのリンクを投稿するのに24時間を設けてください。さもなくば私の HDD スペースを回収します。

投稿者 /u/StrikeOner
[リンク] [コメント]

Qwen3.5-35B GGUF量子化(16–22 GiB) - KLDと速度比較 | AI Navigate