Qwen3.6 GGUFベンチマーク

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Unslothは、Qwen3.6-35B-A3BのGGUFに対するKLD性能ベンチマークを実施し、ディスク使用量あたりのKLDが最良となる量子化（quant）選定を支援したと述べています。
彼らはGGUF更新に関する誤解（自社ミスでの頻繁な再アップロード、CUDAの問題を言い訳としている等）を否定し、更新理由の多くは外部要因であるため透明性をもって情報公開していると説明しています。
具体例として、Gemma 4は4回再アップロードされ、そのうち3回はllama.cppのバグ修正（複数のPR改善）に起因し、4回目はGoogleのチャットテンプレート改善によるもので、全提供者が更新対応したとしています。
MiniMax 2.7ではNaNが複数quantで観測され、Unslothは修正版を適用済み、他提供者（Bartowski）も修正作業中であると報告しています。

みなさん、Qwen3.6-35B-A3B の GGUF KLD 性能ベンチマークを実施しました。より良い量子化（quant）を選ぶのに役立ててください。

Unsloth の量子化（quants）は、パレートフロンティア上で KLD とディスク容量の関係が 21/22 回とも最良です。

GGUFs: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF

また、GGUF の更新について いくつかの誤解を解きたいと思っています。ある人たちは、私たち自身のミスのせいで頻繁に再アップロードしているだけだ、とか、CUDA 13.2 の文字化け（gibberish）のような問題は単なる言い訳だ、と言っています。

懸念は理解していますが、現実には私たちは 問題を素早く公開して、人々に更新するよう伝える傾向があります。おおよそ 95% のケースでは、根本原因は私たちの手の届かないところにあります。私たちは透明性を保ち、コミュニティに情報を行き渡らせるよう努めています。

いくつかの例:

Gemma 4 は 4 回再アップロードされました

そのうち 3 件は、だいたい llama.cpp の 10〜20 個のバグ修正によるもので、私たちも調査に協力し、修正のために貢献しました。4 件目は Google による公式の Gemma チャットテンプレートの改善です。更新が必要だったのは私たちだけではありません。Gemma-4 に対する ~30 件の PR 修正/改善がわかる llama.cpp の PR を見てください。

MiniMax 2.7 の NaNs

38%（Bartowski の 10/26 quants）および 22%（私たちの 5/23 quants）で NaNs を見つけました。

修正を特定し、すでに私たちのものはパッチ済みです。https://www.reddit.com/r/LocalLLaMA/comments/1slk4di/minimax_m27_gguf_investigation_fixes_benchmarks/ を参照してください。Bartowski はまだパッチを当てていませんが、現在も積極的に取り組んでいます。

NaNs 10/26（38%）が、https://huggingface.co/bartowski/MiniMaxAI_MiniMax-M2.7-GGUF: の Chunk-32 で発見（9 件）: IQ3_XXS, IQ3_XS, IQ3_M, Q3_K_M, Q3_K_L, Q3_K_XL, Q4_K_S, Q4_1, Q5_K_S。後半の失敗（1 件）: IQ1_S（chunk 311 でクラッシュ）
NaNs 5/23（21%）: 私たちのものには NaNs がありましたが、すべて現在修正済みです。https://huggingface.co/unsloth/MiniMax-M2.7-GGUF: で UD-Q4_K_S、UD-Q4_K_M、UD-Q4_K_XL、UD-Q5_K_S、MXFP4_MOE。すべてブロック 32 です。
AesSedai の Q4_K_M が https://huggingface.co/AesSedai/MiniMax-M2.7-GGUF にあるものは、私たちの Q6_K トリックで再提供されました。

Qwen3.5 の SSM 問題

どの層を量子化してはいけないかを示す 7TB の研究成果（research artifacts）を共有しました。この問題は、提供者の quants が壊れていることではなく、主に `ssm_out` および `ssm_*` テンソル周りで「最適ではない」ことでした。その後、私たちのものは改善されており、Qwen3.5 でも KLD とディスク容量の関係で引き続きトップになっています。

その後、多くの場合（またはすべて）の量子化プロバイダは、私たちの調査結果を取り入れて自分たちの quants を更新します。私たちの分析と研究については、https://www.reddit.com/r/LocalLLaMA/comments/1rgel19/new_qwen3535ba3b_unsloth_dynamic_ggufs_benchmarks/ と https://www.reddit.com/r/LocalLLaMA/comments/1rlkptk/final_qwen35_unsloth_gguf_update/ で話しました。

CUDA 13.2 は実際に壊れています

これにより、すべてのモデルで一部の low bit quants が文字化けします。そうではない、問題ではないとして片付けた人もいますが、NVIDIA が「問題であり、CUDA 13.3 で修正が来る」ことを確認しています。 Unsloth Issue 4849、llama.cpp issue 21255、issue 21371 を参照してください。

一時的な対処として CUDA 13.1 を使用してください。https://github.com/ggml-org/llama.cpp/issues/21255#issuecomment-4248403175 の https://github.com/johnnynunez: からの引用です。