パーソナル評価の追試：Gemma 4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma 4 31B Dense を比較

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

著者はローカルLLMの評価を追試し、Gemma 4（26B MoEはQ8とQ4）、Qwen 3.5 27B dense（Q4）、Gemma 4 31B dense（Q4）を比較し、以前のテスト結果も含めて統合しました。
同一のテストスイート（ベースラインで37の失敗）に対し、Gemma 4 31B Q4とQwen 3.5 27B Q4はいずれも完全に修正（37/37）できましたが、Gemma 4 26B Q4は28/37、Gemma 4 26B Q8は17/37にとどまりました。
本実験は「量子化タックス（quantization tax）」の仮説を検証する意図がありましたが、このテスト設定ではGemma 4 26BをQ4から8-bit量子化（Q8_K_XL）にしても期待した改善は見られなかったことを示しています。
実行では、モデルごとにキャッシュ読み取りトークン数や出力/入力比などの計算パターンが異なり、大きいモデルほど「総トークン数（入力＋出力）」が増える傾向も確認されています。
この評価環境では、27B/31Bのdenseモデルの方が26B MoE版より大きく優れており、Q8量子化にしてもその差が縮まらなかった、というのが主な結論です。

これは、前回の投稿（Qwen 3.6 35B と Gemma 4 26B の比較）への追記アップデートです。

特に、次の点を追試しました。1. Gemma 4 26B は量子化による“ペナルティ”の影響を受けている可能性があり、8-bit量子化なら大幅に改善したかもしれません。そこで今回は UD の Q8_K_XL でテストしてみたかったのです。2. 多くの人（私自身も）から、Qwen 3.5 27B のdense（密）モデルが、これらのテストでどのような成績になるのか知りたいという疑問がありました。3. denseモデルの話の流れで、Gemma 4 31B も入れて、どの程度の性能なのか確認したいと思いました。

完全な比較のため、前回の実行結果と統合して共有

1. テスト結果

指標	Qwen3.6-35B Q4	Gemma4-26B Q4	Gemma4-26B Q8	Qwen3.5-27B Q4	Gemma4-31B Q4
ベースライン失敗	37	37	37	37	37
修正できたテスト	32 (86.5%)	28 (75.7%)	17 (45.9%)	37 (100%)	37 (100%)
後退（回帰）	0	8	0	0	0
ネットスコア	32	20	17	37	37
まだ失敗（37件中）	5	9	20	0	0
実行後の総失敗数	5	17	20	0	0
ガードレール違反	0	0	0	0	0

2. トークン使用量

指標	Qwen3.6 Q4	Gemma4 26B Q4	Gemma4 26B Q8	Qwen3.5-27B Q4	Gemma4 31B Q4
入力トークン	634,965	1,005,964	703,732	553,137	1,115,666
出力トークン	39,476	89,750	68,055	42,183	62,465
総計（I+O）	674,441	1,095,714	771,787	595,320	1,178,131
キャッシュ読み取りトークン	4,241,502	3,530,520	3,044,400	7,518,047	3,335,808
出力/入力比率	1:16	1:11	1:10	1:13	1:17
修正あたりトークン	~21K	~39K	~45K	~16K	~32K
ネットスコア1点あたりトークン	~21K	~55K	~45K	~16K	~32K

3. ツール呼び出し

ツール	Qwen3.6 Q4	Gemma4 26B Q4	Gemma4 26B Q8	Qwen3.5-27B Q4	Gemma4 31B Q4
read	46	39	25	91 (1 err)	37
bash	33	30	31	23	29
edit	14	13	12 (1 err)	31	21
grep	16	10	6	33	6
write	1	0	4	1	1
glob	1	1	3	1	2
todowrite	4	3	1	1	4
合計	115	96	82	181	100
成功	115 (100%)	96 (100%)	81 (98.8%)	180 (99.4%)	100 (100%)
失敗	0	0	1	1	0

派生指標	Qwen3.6 Q4	Gemma4 26B Q4	Gemma4 26B Q8	Qwen3.5-27B Q4	Gemma4 31B Q4
ユニークな読み取りファイル数	18	27	19	23	27
ユニークな編集ファイル数	7	13	9	9	12
ユニークファイルあたりの読み取り回数	2.6	1.4	1.3	4.0	1.4
1分あたりのツール呼び出し回数	2.3	1.1	1.2	1.2	0.16
修正あたりの編集回数	0.44	0.46	0.65	0.84	0.57
Bash（pytest）実行回数	33	30	31	23	29

4. タイミングと効率

指標	Qwen3.6 Q4	Gemma4 26B Q4	Gemma4 26B Q8	Qwen3.5-27B Q4	Gemma4 31B Q4
ウォールクロック	2,950s (49m)	5,129s (85m)	4,142s (69m)	8,698s (145m)	37,748s (629m)
総ステップ数	120	104	88	186	109
平均ステップ時間	10.0s	21.7s	24.0s	15.9s	82.2s

5. モデルとサーバ設定

項目	Qwen3.6-35B Q4	Gemma4-26B Q4	Gemma4-26B Q8	Qwen3.5-27B Q4	Gemma4-31B Q4
総パラメータ数	35B	26B	26B	27B	31B
アクティブパラメータ数	3B	4B	4B	27B	31B
量子化	Q4_K_XL	Q4_K_XL	Q8_K_XL	Q4_K_XL	Q4_K_XL
コンテキスト	100,000	100,000	100,000	100,000	100,000
temperature	0.6	1.0	1.0	0.6	1.0
top_p	0.95	0.95	0.95	0.95	0.95
top_k	20	64	64	20	64

主な観察結果

Gemma 4 26B の性能は、Q8でもだいたい同じ範囲に留まっています。この実行ではQ4よりも少し悪化しましたが、そのばらつきはノイズである可能性が高いです。私は引き続き Q4_K_XL の量子化を使います
Qwen 3.5 27B と Gemma 4 31B はどちらもテストを完璧に突破しました。denseモデルは、MoEのものとは別の土俵です。（特に Gemma 31B）
Gemma 4 31B は、ツール呼び出しの観点で最も効率的です。100回のツール呼び出しすべてをエラーなしで修正できました
Qwen 3.5 27B は、1回の修正あたり平均16kトークンという形で、最もトークン効率が良いモデルです。
Gemma 4 31B はまた、何らかの理由で推論速度が非常に遅く、極端に遅い速度のために10時間29分かけて実行されました。さらに、-cram と -ctkcp のフラグを付けても、DRAM は最大で70GBまで膨らみました。これが予想される挙動なのかどうかは分かりません。

私のテストではGemma4 31Bが客観的に最も高い能力を示しましたが、同時に私の環境設定ではこの中で一番遅いです。Qwen 3.5 27Bは、より許容しやすい速度で同等の性能を引き継ぎます。Qwen 3.6 35Bは速度対性能のチャンピオンのままで、その同じ理由で私の日常的なメイン機として使い続けます。

送信者 /u/Lowkey_LokiSN
[link] [comments]