GGUF Quants Arena for MMLU(24GB VRAM + 128GB RAM)

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 本投稿は、llama.cppを用いてGGUF量子化モデルによるローカル推論のベンチマークを報告しており、MMLU(DEV+TEST)サブセットで評価を実施している(ただし、評価するパラメータはctx 8192、seed 42、fa有効のように固定された少数のみ)。
  • 結果の上位にはQwen3.5-27Bの各バリアントが入り、Q5_K_XLは87.33%、Q4_K_XLはこれにわずかに及ばず87.25%を記録している(正解12263〜12252/全14042)。
  • そのほかの複数のQwen3.5およびClaude由来のGGUF量子化も、80%台後半に集まっている一方で、より大規模なモデルであるQwen3.5-397BのIQ2バリアントは大きく下回り65.80%となっている。
  • これらの結果は、(タイトルが示すとおり)特に24GB VRAMおよび128GB RAMといった限られたハードウェア構成上で、競争力のあるMMLU性能を実行する実用性を焦点としている。

データセット:MMLUサブセット(DEV+TEST)

Llamacpp設定:3パラメータのみ(ctx 8192 、seed 42 、fa on)

他に何を見たいか教えてください。ありがとうございます。

結果:

Qwen3.5-27B-UD-Q5_K_XL.gguf 87.33% 12263/14042

Qwen3.5-27B-UD-Q4_K_XL.gguf 87.25% 12252/14042

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled.i1-Q4_K_M.gguf 87.02% 12220/14042

Qwen3-Coder-Next-UD-Q4_K_XL.gguf 84.38% 11849/14042

Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf 83.25% 11690/14042

Qwen3.5-9B-UD-Q8_K_XL.gguf 78.81% 11067/14042

gemma-4-31B-it-UD-Q4_K_XL.gguf 78.36% 11004/14042 errors=1

Qwen3.5-397B-A17B-UD-IQ2_XXS-00001-of-00004.gguf 65.80% 9239/14042

投稿者 /u/qwen_next_gguf_when
[リンク] [コメント]