Qwen3.5-35B GGUF 量子化(16–22 GiB)- KLDと速度の比較
さらなるベンチマークをお届けします。Hugging Face で入手可能な実際の Qwen3.5-35B-A3B GGUF 量子化(16–22 GiB)の KLD 発散をベンチマークしました。
KLD: Kullback-Leibler 発散は、FP16 と量子化後のロジット分布がどれだけ類似しているかを、参照コーパス上で量子化モデルと FP16 基準の確率分布の差を測定することで示します。
u/TitwitMuffbiscuit はこれに挑戦しました しかし、公開からしばらくして彼が測定を公開した後、すべてのモデルが更新されてしまいました。
この研究では、英語の Wikitext-2 テストデータセットを使用せず、代わりに多言語データセット FLORES 200 を用い、ランダムに選択した言語の行を跨る700 KB の行を抽出しました。さらに、約400KB のサイズを持つ別の興味深いデータセット calibration_data_v5_rc.txt を見つけ、プログラミング、数学、構文の例、技術テキスト など といった多くの興味深いトピックを含んでいます。これら2つのデータセットを 混合データセット に統合して KLD ベースライン を作成し、このベースラインを用いて見つけたすべてのモデルの KLD 距離を測定しました。
従来の「KLD平均」値で並べ替えられた表と、「KLD 99%」値で並べ替えられた表の2つを作成しました。Unsloth が最新の ブログ投稿 で公開した Qwen モデルに関するグラフと似ています。
ここで勝者を宣言するつもりはありません。GPU が貧弱であるという非常に特定の制約を踏まえると、それはあなた次第です。重量級のモデルを打ち負かしているモデルを視覚的に把握しやすくするため、実際のモデルの数値と下のモデルを比較し、選択した指標に基づいて低い場合は太字、高い場合は太字で表示します。
PP/s(プロンプト処理)と TG/s(トークン生成)列は、ほとんどのユーザーには意味をなしにくい、非常に具体的な数値です。これらの数値を利用するには Intel CPU、RTX 3090 GPU(Ampere)、および Linux と Cuda Driver Version 580.126.18 を用いる必要があります。私はコンテキスト長を 10k に設定した llama-bench を使ってこれらの数値を取得しました。
例えば TG/s の速度を見てみると、Unsloth の UD-Q3_K_XL は最後の更新前で最も遅く、生成速度は約 105t/s、最速なのは Mungert の iq4_nl で約 143 t/s で、私の特定アーキテクチャではトークン生成速度の総変動が 36.2% となり、非常に高く、いわゆる最適モデルを定義するのが難しい理由の1つとなっています。
注: 表中の cmp-nct で接頭辞を持つモデルは、最新版のアップロード前に私が見つけた古い Unsloth の量子化データの mirror の実体で、私も測定したかったものです。
KLD平均で並べ替え
| モデル | KLD平均 | GiB | PP/s | TG/s |
|---|---|---|---|---|
| unsloth_UD-Q4_K_XL | 0.016158 | 20.70 | 2812.949429 | 122.616934 |
| AesSedai_Q4_K_M | 0.016308 | 20.62 | 2966.807082 | 123.676699 |
| unsloth_Q4_K_M | 0.016708 | 20.49 | 2821.819502 | 123.910904 |
| bartowski_Q4_K_L | 0.020222 | 20.27 | 2809.591483 | 130.155778 |
| unsloth_Q4_K_S | 0.020469 | 19.24 | 2838.399411 | 124.346442 |
| bartowski_Q4_K_M | 0.022723 | 19.92 | 2806.437093 | 131.632558 |
| cmp-nct_UD-Q4_K_XL | 0.022863 | 19.16 | 2861.949731 | 125.816493 |
| ubergarm_Q4_0 | 0.024576 | 19.78 | 2876.503157 | 124.357224 |
| unsloth_UD-Q4_K_L | 0.024691 | 18.81 | 2861.777605 | 131.242261 |
| bartowski_Q4_K_S | 0.025161 | 19.19 | 2849.248198 | 134.693183 |
| Mungert_q4_k_m | 0.026718 | 20.08 | 2812.234371 | 137.328114 |
| cmp-nct_UD-Q4_K_M | 0.030445 | 18.48 | 2840.653679 | 136.462817 |
| bartowski_Q4_1 | 0.030681 | 20.45 | 2831.282134 | 136.927623 |
| bartowski_IQ4_NL | 0.032332 | 18.50 | 2981.250713 | 137.735717 |
| bartowski_IQ4_XS | 0.032829 | 17.52 | 3017.103823 | 135.980487 |
| AesSedai_IQ4_XS | 0.037086 | 16.40 | 3016.284929 | 120.057024 |
| unsloth_UD-IQ4_NL | 0.037691 | 16.59 | 2850.872626 | 123.322993 |
| unsloth_UD-IQ4_XS | 0.037835 | 16.28 | 2855.705903 | 121.589312 |
| bartowski_Q4_0 | 0.040627 | 18.80 | 2921.368478 | 137.152109 |
| Mungert_iq4_nl | 0.040920 | 18.36 | 2996.884610 | 140.422106 |
| Mungert_iq4_xs | 0.042396 | 17.37 | 3042.389900 | 139.850819 |
| Mungert_q4_1 | 0.045873 | 20.26 | 2833.595098 | 143.116543 |
| cmp-nct_UD-Q3_K_XL | 0.048064 | 16.05 | 2739.799015 | 105.006853 |
| Mungert_iq3_m | 0.049971 | 16.58 | 2871.107320 | 138.612701 |
| Mungert_iq3_s | 0.049971 | 16.58 | 2874.769301 | 139.805846 |
| bartowski_Q3_K_XL | 0.061445 | 16.13 | 2660.731996 | 123.457777 |
| Mungert_q3_k_m | 0.061488 | 16.29 | 2710.267499 | 131.202303 |
| Mungert_q4_0 | 0.084376 | 18.24 | 2956.897238 | 143.063168 |
KLD 99%で並べ替え
| モデル | KLD 99% | GiB | PP/s | TG/s |
|---|---|---|---|---|
| unsloth_UD-Q4_K_XL | 0.145385 | 20.70 | 2812.949429 | 122.616934 |
| AesSedai_Q4_K_M | 0.147057 | 20.62 | 2966.807082 | 123.676699 |
| unsloth_Q4_K_M | 0.147594 | 20.49 | 2821.819502 | 123.910904 |
| unsloth_Q4_K_S | 0.177634 | 19.24 | 2838.399411 | 124.346442 |
| bartowski_Q4_K_L | 0.179187 | 20.27 | 2809.591483 | 130.155778 |
| cmp-nct_UD-Q4_K_XL | 0.191735 | 19.16 | 2861.949731 | 125.816493 |
| bartowski_Q4_K_M | 0.205318 | 19.92 | 2806.437093 | 131.632558 |
| unsloth_UD-Q4_K_L | 0.208308 | 18.81 | 2861.777605 | 131.242261 |
| ubergarm_Q4_0 | 0.222435 | 19.78 | 2876.503157 | 124.357224 |
| bartowski_Q4_K_S | 0.227099 | 19.19 | 2849.248198 | 134.693183 |
| Mungert_q4_k_m | 0.235314 | 20.08 | 2812.234371 | 137.328114 |
| cmp-nct_UD-Q4_K_M | 0.252636 | 18.48 | 2840.653679 | 136.462817 |
| bartowski_Q4_1 | 0.264378 | 20.45 | 2831.282134 | 136.927623 |
| bartowski_IQ4_NL | 0.284880 | 18.50 | 2981.250713 | 137.735717 |
| bartowski_IQ4_XS | 0.289398 | 17.52 | 3017.103823 | 135.980487 |
| unsloth_UD-IQ4_NL | 0.311913 | 16.59 | 2850.872626 | 123.322993 |
| AesSedai_IQ4_XS | 0.312924 | 16.40 | 3016.284929 | 120.057024 |
| unsloth_UD-IQ4_XS | 0.316742 | 16.28 | 2855.705903 | 121.589312 |
| Mungert_q4_1 | 0.335030 | 20.26 | 2833.595098 | 143.116543 |
| bartowski_Q4_0 | 0.351119 | 18.80 | 2921.368478 | 137.152109 |
編集: 忘れてしまったモデルを含めたい場合は、測定してほしいモデルへのリンクを投稿するのに24時間を設けてください。さもなくば私の HDD スペースを回収します。
投稿者 /u/StrikeOner[リンク] [コメント]




