Qwen 3.6 35BがGemma 4 26Bを筆者のテストで圧倒

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

個人の評価ハーネス（意図的なLLM向け不具合37件＋エージェント型セットアップをOpenCodeで実施）では、Qwen 3.6 35Bが37件中32件を修正し、Gemma 4 26Bは28件でした（Qwenは回帰0）。
Qwen 3.6はネットスコアで32対20を記録し、実行後の失敗も5対17と少なく、全体としての問題解決力と指示追従の強さが示されました。
著者によるとQwenは残り5件の失敗要因も把握したものの「スコープ外」として意図的にスキップし、Gemmaは複数回リトライした結果、未解決のまま失敗がより多く残りました。
トークン効率はQwenが優位で、Gemmaは総トークン消費が約1.6倍、出力トークンも2.3倍でした（この構成ではネットスコア1点あたりのコストが約2.6倍）。
本テストはエージェント能力、コーディング、指示追従、推論、さらに画像からテキスト化やPDF情報抽出など複数の能力を評価しており、Qwenの優位は単一指標だけでなく幅広い領域に及ぶことを示唆しています。

私には個人的な評価用ハーネスがあります。LLMがエージェント的なセットアップ（私はOpenCodeを使用）でデバッグし、対応すべき意図的な不具合が37件ある、約3万行のコードを含むリポジトリです。

このハーネスの一部には、かなり大きめのPDF（40〜60ページ）からLLMが重要情報を抽出し、その内容を要約して評価するテストも含まれています。

要するに、このハーネスは次のLLM特性をテストしています： - エージェント的な能力 - コーディング - 画像からテキストへの統合 - 指示追従 - 推論

公正なベースラインとして、最適なサンプリングパラメータでUD-Q4_K_XLの両モデルを実行。Googleによる最新のchat-templateの修正後のGemma 4のGGUFに加え、DRAMの暴走（blowups）を抑えるための -cram、-ctkcp フラグを使用しています。

結果はこうです：

Qwen3.6 Gemma 4 ┌──────────────┐ ┌──────────────┐ Tests Fixed │ 32 / 37 │ │ 28 / 37 │ Regressions │ 0 │ │ 8 │ Net Score │ 32 │ │ 20 │ Post-Run Failures │ 5 │ │ 17 │ Duration │ 49 min │ │ 85 min │ └──────────────┘ └──────────────┘ WINNER ✓

1. テスト結果

指標	Qwen3.6-35B-A3B	Gemma 4-26B-A4B
ベースラインの失敗	37	37
修正されたテスト	32 (86.5%)	28 (75.7%)
回帰（新たな失敗）	0	8
ネットスコア（fixed − regressed）	32	20
まだ失敗（元の37件のうち）	5	9
実行後の総失敗数	5	17
ガードレール違反	0	0

Qwenは残った5件の失敗を実際に見つけましたが、スコープ外だと判断して意図的にスキップしました。Gemmaは複数回のリトライをしても諦めました。

2. トークン使用量

指標	Qwen3.6	Gemma 4	比
入力トークン	634,965	1,005,964	Gemma 1.6倍多い
出力トークン	39,476	89,750	Gemma 2.3倍多い
総計（I+O）	674,441	1,095,714	Gemma 1.6倍多い
キャッシュ読み取りトークン	4,241,502	3,530,520	Qwen 1.2倍多い
出力/入力比	1:16	1:11	Gemmaの方が冗長
修正1回あたりのトークン	約21K	約39K	Gemmaの方が1.9倍高くつく
ネットスコア1ポイントあたりのトークン	約21K	約55K	Gemmaの方が2.6倍高くつく

3. ツール呼び出し

ツール	Qwen3.6	Gemma 4
read	46	39
bash	33	30
edit	14	13
grep	16	10
todowrite	4	3
glob	1	1
write	1	0
合計	115	96
成功	115 (100%)	96 (100%)
失敗	0	0

派生指標	Qwen3.6	Gemma 4
ユニークな読み取りファイル数	18	27
ユニークな編集ファイル数	7	13
ユニークファイルあたりの読み取り回数	2.6	1.4
1分あたりのツール呼び出し回数	2.3	1.1
修正あたりの編集回数	0.44	0.46
Bash（pytest）実行回数	33	30

4. タイミングと効率

指標	Qwen3.6	Gemma 4	比
実時間（wall clock）	2,950s (49m)	5,129s (85m)	Gemma 1.74倍遅い
合計ステップ数	120	104	—
平均ステップ時間	10.0s	21.7s	Gemma 2.2倍遅い/ステップ

主な観察結果：

両モデルとも、エージェント的な能力に顕著な飛躍が見られます。95回以上のツール呼び出しで0件の失敗
Qwenの方が優れたコーダーです（少なくとも、私のハーネスがベースにしているPythonにおいて）
両モデルは推論パフォーマンスで最初は同等のスタートを切っていますが、Gemma 4はコンテキストが大きくなるにつれてプリフィル速度が揺らぎます。Qwenはアーキテクチャによって、プリフィル速度を通じてほぼ同じ状態に保つのに役立っています。エージェント的なコーディングでこれは非常に大きいです！
私を含め多くの人が、推論が過剰に冗長でトークンを無駄にしているとQwenを批判していますが、意外にもエージェント環境でははるかに効率的で、この点ではGemma 4を大きく上回っています。より短い時間で、より少ないトークン数で、より多くの問題を修正できました
画像からテキストへの統合は別の話です。QwenはGemmaよりも8倍多いトークン（および時間）を出力しますが、より高い精度で結果を返します。Gemmaは数値抽出のような細部をいくつか誤解しましたが、Qwenはそれを誤りませんでした。とはいえ、Gemmaも全体としては概ね良好に処理できています。品質 vs 効率。どちらを取るかです。
指示に基づいて長いPDFを要約し評価する用途では、両モデルとも十分に良いです。結局は好みの問題です。Gemmaはこの領域でも素早く仕上げます。Qwenはより多く考えて、最終評価ではわずかに良い結果になります。

Qwen 3.6 35B A3Bは、Gemma 4 26Bを私のユースケースでは支配しています。そして、スピードとパフォーマンスの最良のバランスを見つけられたことで、私の新しいデイリードライバーになりました。

逆に、Gemmaを支持するいくつかのポイントも挙げると： - Qwen 3.5/3.6シリーズのモデルは量子化への耐性が非常に高いのですが、Gemmaもそうかは分かりません。重みフルの比較をすれば、結果は大きく異なる可能性があります - Gemmaのサポートは、Qwenに比べてずっと成熟していません - 単発実行のばらつきがGemmaに不利に働いた可能性があります。ただし、私はこのハーネスの多様なカテゴリにまたがる評価基準が、それをある程度きちんと緩和していると考えています。結局のところ、これはあくまで私個人のテスト結果に基づく判断です。

submitted by /u/Lowkey_LokiSN
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/18Dailyインサイトを見る →

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

Anthropic Labsが「Claude Design」を提供開始

Anthropic News

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

Claudeが指示を無視する理由（そしてCLAUDE.mdで直す方法）

Dev.to