パーソナル評価の追試:Gemma 4 26B MoE(Q8)vs Qwen3.5 27B Dense vs Gemma 4 31B Dense を比較

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 著者はローカルLLMの評価を追試し、Gemma 4(26B MoEはQ8とQ4)、Qwen 3.5 27B dense(Q4)、Gemma 4 31B dense(Q4)を比較し、以前のテスト結果も含めて統合しました。
  • 同一のテストスイート(ベースラインで37の失敗)に対し、Gemma 4 31B Q4とQwen 3.5 27B Q4はいずれも完全に修正(37/37)できましたが、Gemma 4 26B Q4は28/37、Gemma 4 26B Q8は17/37にとどまりました。
  • 本実験は「量子化タックス(quantization tax)」の仮説を検証する意図がありましたが、このテスト設定ではGemma 4 26BをQ4から8-bit量子化(Q8_K_XL)にしても期待した改善は見られなかったことを示しています。
  • 実行では、モデルごとにキャッシュ読み取りトークン数や出力/入力比などの計算パターンが異なり、大きいモデルほど「総トークン数(入力+出力)」が増える傾向も確認されています。
  • この評価環境では、27B/31Bのdenseモデルの方が26B MoE版より大きく優れており、Q8量子化にしてもその差が縮まらなかった、というのが主な結論です。

これは、前回の投稿(Qwen 3.6 35B と Gemma 4 26B の比較)への追記アップデートです。

特に、次の点を追試しました。1. Gemma 4 26B は量子化による“ペナルティ”の影響を受けている可能性があり、8-bit量子化なら大幅に改善したかもしれません。そこで今回は UD の Q8_K_XL でテストしてみたかったのです。2. 多くの人(私自身も)から、Qwen 3.5 27B のdense(密)モデルが、これらのテストでどのような成績になるのか知りたいという疑問がありました。3. denseモデルの話の流れで、Gemma 4 31B も入れて、どの程度の性能なのか確認したいと思いました。

完全な比較のため、前回の実行結果と統合して共有


1. テスト結果

指標 Qwen3.6-35B Q4 Gemma4-26B Q4 Gemma4-26B Q8 Qwen3.5-27B Q4 Gemma4-31B Q4
ベースライン失敗 37 37 37 37 37
修正できたテスト 32 (86.5%) 28 (75.7%) 17 (45.9%) 37 (100%) 37 (100%)
後退(回帰) 0 8 0 0 0
ネットスコア 32 20 17 37 37
まだ失敗(37件中) 5 9 20 0 0
実行後の総失敗数 5 17 20 0 0
ガードレール違反 0 0 0 0 0

2. トークン使用量

指標 Qwen3.6 Q4 Gemma4 26B Q4 Gemma4 26B Q8 Qwen3.5-27B Q4 Gemma4 31B Q4
入力トークン 634,965 1,005,964 703,732 553,137 1,115,666
出力トークン 39,476 89,750 68,055 42,183 62,465
総計(I+O) 674,441 1,095,714 771,787 595,320 1,178,131
キャッシュ読み取りトークン 4,241,502 3,530,520 3,044,400 7,518,047 3,335,808
出力/入力比率 1:16 1:11 1:10 1:13 1:17
修正あたりトークン ~21K ~39K ~45K ~16K ~32K
ネットスコア1点あたりトークン ~21K ~55K ~45K ~16K ~32K

3. ツール呼び出し

ツール Qwen3.6 Q4 Gemma4 26B Q4 Gemma4 26B Q8 Qwen3.5-27B Q4 Gemma4 31B Q4
read 46 39 25 91 (1 err) 37
bash 33 30 31 23 29
edit 14 13 12 (1 err) 31 21
grep 16 10 6 33 6
write 1 0 4 1 1
glob 1 1 3 1 2
todowrite 4 3 1 1 4
合計 115 96 82 181 100
成功 115 (100%) 96 (100%) 81 (98.8%) 180 (99.4%) 100 (100%)
失敗 0 0 1 1 0
派生指標 Qwen3.6 Q4 Gemma4 26B Q4 Gemma4 26B Q8 Qwen3.5-27B Q4 Gemma4 31B Q4
ユニークな読み取りファイル数 18 27 19 23 27
ユニークな編集ファイル数 7 13 9 9 12
ユニークファイルあたりの読み取り回数 2.6 1.4 1.3 4.0 1.4
1分あたりのツール呼び出し回数 2.3 1.1 1.2 1.2 0.16
修正あたりの編集回数 0.44 0.46 0.65 0.84 0.57
Bash(pytest)実行回数 33 30 31 23 29

4. タイミングと効率

指標 Qwen3.6 Q4 Gemma4 26B Q4 Gemma4 26B Q8 Qwen3.5-27B Q4 Gemma4 31B Q4
ウォールクロック 2,950s (49m) 5,129s (85m) 4,142s (69m) 8,698s (145m) 37,748s (629m)
総ステップ数 120 104 88 186 109
平均ステップ時間 10.0s 21.7s 24.0s 15.9s 82.2s

5. モデルとサーバ設定

項目 Qwen3.6-35B Q4 Gemma4-26B Q4 Gemma4-26B Q8 Qwen3.5-27B Q4 Gemma4-31B Q4
総パラメータ数 35B 26B 26B 27B 31B
アクティブパラメータ数 3B 4B 4B 27B 31B
量子化 Q4_K_XL Q4_K_XL Q8_K_XL Q4_K_XL Q4_K_XL
コンテキスト 100,000 100,000 100,000 100,000 100,000
temperature 0.6 1.0 1.0 0.6 1.0
top_p 0.95 0.95 0.95 0.95 0.95
top_k 20 64 64 20 64

主な観察結果

  • Gemma 4 26B の性能は、Q8でもだいたい同じ範囲に留まっています。この実行ではQ4よりも少し悪化しましたが、そのばらつきはノイズである可能性が高いです。私は引き続き Q4_K_XL の量子化を使います
  • Qwen 3.5 27B と Gemma 4 31B はどちらもテストを完璧に突破しました。denseモデルは、MoEのものとは別の土俵です。(特に Gemma 31B)
  • Gemma 4 31B は、ツール呼び出しの観点で最も効率的です。100回のツール呼び出しすべてをエラーなしで修正できました
  • Qwen 3.5 27B は、1回の修正あたり平均16kトークンという形で、最もトークン効率が良いモデルです。
  • Gemma 4 31B はまた、何らかの理由で推論速度が非常に遅く、極端に遅い速度のために10時間29分かけて実行されました。さらに、-cram と -ctkcp のフラグを付けても、DRAM は最大で70GBまで膨らみました。これが予想される挙動なのかどうかは分かりません。

私のテストではGemma4 31Bが客観的に最も高い能力を示しましたが、同時に私の環境設定ではこの中で一番遅いです。Qwen 3.5 27Bは、より許容しやすい速度で同等の性能を引き継ぎます。Qwen 3.6 35Bは速度対性能のチャンピオンのままで、その同じ理由で私の日常的なメイン機として使い続けます。

送信者 /u/Lowkey_LokiSN
[link] [comments]