Gemma 4 26B-A4B GGUF ベンチマーク(26B-A4B)

Reddit r/LocalLLaMA / 2026/4/20

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿では、Gemma 4 26B-A4B のGGUF量子化(quant)について、プロバイダ間の比較を目的にKLダイバージェンス・ベンチマークを実施し、最適な量子化の選び方を支援するとしています。
  • 平均KLダイバージェンスの結果から、UnslothのほぼすべてのGGUFがParetoフロンティア上に位置することが示され、元のBF16出力分布への忠実性が高いことを示唆しています。
  • Unslothは22サイズ中21サイズでトップ性能であるとされ、99.9% KLDでも同様の強い傾向が観察されたと述べています。
  • Unslothは複数の量子化バリアントを更新し(例:Q6_Kのよりダイナミックな最適化。Qwen3.6でも同様の更新)、新バージョンはわずかにサイズが大きい可能性がある一方で、旧版でも問題なく利用できるため再ダウンロードは必須ではないと説明しています。
  • 16GB VRAMに収まる新しいUD-IQ4_NL_XL量子化(14.6GB)を導入し、Gemma 4ではUD-IQ4_XS(13.4GB)とUD-Q4_K_S(16.4GB)の間に位置づけています(Qwen3.6でも同様に実施)。
Gemma 4 26B-A4B GGUF Benchmarks

こんにちは r/LocalLLaMA !Gemma 4 26B-A4B のGGUFについて、プロバイダーごとにKLダイバージェンスのベンチマークを実施しました。これで、最適な量子化(quant)を選びやすくなるはずです。

  • 平均KLダイバージェンスでは、ほぼすべてのUnsloth GGUFがパレートフロンティアに位置しています
  • KLDは、量子化モデルが元のBF16出力分布にどれだけよく一致しているかを示し、保持された精度を示唆します。
  • これにより、Unslothは22サイズ中21サイズで最高のパフォーマンスです。同様の傾向が99.9% KLDや他の指標でも見られます。
  • また、Q6_Kの量子化をよりダイナミックにするよう更新しました。以前は最適化されていましたが、今回はそれが少し良くなっています—ただし再ダウンロードの必要はありません。少しだけ改良されたバージョンが欲しいかどうかはお好み次第です。以前の量子化でも十分に良好でしたが、今回のものはわずかにサイズが大きくなっています。同じことをQwen3.6でも行いました。
  • さらに、16GB VRAMに収まる新しいUD-IQ4_NL_XL量子化を導入します。UD-IQ4_NL_XL(14.6GB)は、UD-IQ4_XS(13.4GB)とUD-Q4_K_S(16.4GB)の間に位置します。同じことをQwen3.6でも行いました。

グラフのHQ版は、Redditモバイルが圧縮するためこちらをご覧ください。 Gemma 4 BenchmarksQwen3.6 Benchmarks

また、MLX用の量子化も更新し、(MLXには制限があるものの)より良いレイヤー選択によってダイナミックさを高めました: こちら

MLX Metrics UD-4bit (Old) UD-4bit (New) MLX 4.4bit MSQ
Perplexity 4.772 4.766 4.864
Mean KLD 0.0177 0.0163 0.0878
99.9% KLD 0.8901 0.8398 2.9597
Disk Sze 21.4 GB 21.6 GB 21.2 GB

Gemma 4 GGUFs: https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

Qwen3.6 GGUFs: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF

submitted by /u/danielhanchen
[link] [comments]