Gemma 4 26B-A4B GGUF ベンチマーク（26B-A4B）

Reddit r/LocalLLaMA / 2026/4/20

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿では、Gemma 4 26B-A4B のGGUF量子化（quant）について、プロバイダ間の比較を目的にKLダイバージェンス・ベンチマークを実施し、最適な量子化の選び方を支援するとしています。
平均KLダイバージェンスの結果から、UnslothのほぼすべてのGGUFがParetoフロンティア上に位置することが示され、元のBF16出力分布への忠実性が高いことを示唆しています。
Unslothは22サイズ中21サイズでトップ性能であるとされ、99.9% KLDでも同様の強い傾向が観察されたと述べています。
Unslothは複数の量子化バリアントを更新し（例：Q6_Kのよりダイナミックな最適化。Qwen3.6でも同様の更新）、新バージョンはわずかにサイズが大きい可能性がある一方で、旧版でも問題なく利用できるため再ダウンロードは必須ではないと説明しています。
16GB VRAMに収まる新しいUD-IQ4_NL_XL量子化（14.6GB）を導入し、Gemma 4ではUD-IQ4_XS（13.4GB）とUD-Q4_K_S（16.4GB）の間に位置づけています（Qwen3.6でも同様に実施）。

こんにちは r/LocalLLaMA ！Gemma 4 26B-A4B のGGUFについて、プロバイダーごとにKLダイバージェンスのベンチマークを実施しました。これで、最適な量子化（quant）を選びやすくなるはずです。

平均KLダイバージェンスでは、ほぼすべてのUnsloth GGUFがパレートフロンティアに位置しています
KLDは、量子化モデルが元のBF16出力分布にどれだけよく一致しているかを示し、保持された精度を示唆します。
これにより、Unslothは22サイズ中21サイズで最高のパフォーマンスです。同様の傾向が99.9% KLDや他の指標でも見られます。
また、Q6_Kの量子化をよりダイナミックにするよう更新しました。以前は最適化されていましたが、今回はそれが少し良くなっています—ただし再ダウンロードの必要はありません。少しだけ改良されたバージョンが欲しいかどうかはお好み次第です。以前の量子化でも十分に良好でしたが、今回のものはわずかにサイズが大きくなっています。同じことをQwen3.6でも行いました。
さらに、16GB VRAMに収まる新しいUD-IQ4_NL_XL量子化を導入します。UD-IQ4_NL_XL（14.6GB）は、UD-IQ4_XS（13.4GB）とUD-Q4_K_S（16.4GB）の間に位置します。同じことをQwen3.6でも行いました。

グラフのHQ版は、Redditモバイルが圧縮するためこちらをご覧ください。 Gemma 4 Benchmarks と Qwen3.6 Benchmarks

また、MLX用の量子化も更新し、（MLXには制限があるものの）より良いレイヤー選択によってダイナミックさを高めました：こちら