デバッグ用途でのGemma 4、Qwen 3.6、Qwen 3 Coder Nextの比較

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンTools & Practical UsageModels & Research

要点

  • この投稿では、レガシーなFlashベースのWebサイトを現代のブラウザで動かすためのデバッグ課題について、Gemma 4、Qwen 3.6、Qwen 3 Coder Nextの3つを同一条件のマルチターンで比較している。
  • 最初の問題はGemma 4とQwen 3.6が機能的に同等の方法で解決し、その後も有用な追加フィードバックを返した一方、Qwen 3 Coder Nextはより回りくどい提案をした。
  • 3モデルはいずれも、提案された修正の後に残っていた別の致命的な問題を見落としたが、Gemma 4は最終的に単純で正確な修正を示し、Qwen 3.6はより込み入ったやり方で提案したものの、わかりやすさの点ではGemma 4に劣る印象だった。
  • 調査ではエージェント型のハーネスや基本的なCoTの明示プロンプトなしでcompletions APIに直接投げており、Qwen 3 Coder Nextの「非推論モデル」としての制約が指摘されている。

ここで見るべき大げさなものはありません。単一のプログラミング用途、つまり、すべてをFlashで使っている古いWebサイトを現代のブラウザで動かせるようにする件について、簡単な定性的およびパフォーマンスの比較をしただけです。私は3つのモデルすべてに、まったく同じ問題をまったく同じマルチターンのフィードバック付きで解かせました。

  • Gemma 4とQwen 3.6はいずれも、機能的に同等なやり方で最初の問題をきっちり解決し、有用な追加フィードバックも提供しました。
  • Q3CNは、より込み入った修正に踏み込みました。
  • 3つとも、提案された修正の後に残っている破綻(ブレーク)する問題を見逃しました。
  • その後Gemma 4が、単純で的確な修正を行いました。
  • Qwen 3.6は、Gemma 4よりも問題を理解できていないように感じる、かなり込み入ったやり方で解決しました。しかもそれを指摘もしてはいましたが、よりきれいではありませんでした。
  • Q3CNは、実際の問題を見落とした、非常に込み入った修正を提案しました。

なお、すべてのモデルはエージェント的なハーネスの外で、completions APIを通じて直接プロンプトされました。そのためQ3CNには、推論しないモデルであり、基本的なCoTを求めるプロンプトがされていないという欠点がありました。

gemma-4-31B-it-UD-Q4_K_XL (18.8 GB) Qwen3.6-35B-A3B-UD-Q5_K_XL (26.6 GB) Qwen3-Coder-Next-UD-Q4_K_XL (49.6 GB)
初期プロンプトトークン 60178 53063 50288
プロンプト速度(tps) 642 2130 801
総プロンプト時間(s) 93 25 64
生成トークン 1938 5437 1076
応答速度(tps) 13 66 40
総応答時間(s) 151 82 27
次のターン - - -
生成トークン 4854 12027 1195
応答速度(tps) 12 59 34
総応答時間(s) 396 204 35

いくつかの観察:

  • Qwen 3.6は最も冗長で、推論でもそうですが、それでもTPSが非常に高いためGemma 4より速いです。
  • Qwen 3.6は、プロンプト処理カテゴリで明確に勝っています。
  • Q3CNは、かなり大きなサイズにもかかわらず、冗長さがはるかに少ないため速いです。推論がなく、能力が減っています。
  • このテストの外でのエージェント的な設定では、Gemma 4がコーディングやデバッグの状況で、複雑で相反する情報に対して明確により良く対処するのを見つけました。これは、密なモデル(dense)とMoEの違いによるのかもしれません。

すべてのテストは最新のllama.cppで行い、部分オフロードは自動の適合(フィッティング)によるものです。VRAMは24 GBで、以下のオプションを使用しました:-fa on --temp 0 -np 1 -c 80000 -ctv q8_0 -ctk q8_0 -b 2048 -ub 2048

(はい、temp 0は推奨されないことは分かっていますが、現状それでも私にはうまく動いています)

submitted by /u/Chromix_
[link] [comments]