ここで見るべき大げさなものはありません。単一のプログラミング用途、つまり、すべてをFlashで使っている古いWebサイトを現代のブラウザで動かせるようにする件について、簡単な定性的およびパフォーマンスの比較をしただけです。私は3つのモデルすべてに、まったく同じ問題をまったく同じマルチターンのフィードバック付きで解かせました。
- Gemma 4とQwen 3.6はいずれも、機能的に同等なやり方で最初の問題をきっちり解決し、有用な追加フィードバックも提供しました。
- Q3CNは、より込み入った修正に踏み込みました。
- 3つとも、提案された修正の後に残っている破綻(ブレーク)する問題を見逃しました。
- その後Gemma 4が、単純で的確な修正を行いました。
- Qwen 3.6は、Gemma 4よりも問題を理解できていないように感じる、かなり込み入ったやり方で解決しました。しかもそれを指摘もしてはいましたが、よりきれいではありませんでした。
- Q3CNは、実際の問題を見落とした、非常に込み入った修正を提案しました。
なお、すべてのモデルはエージェント的なハーネスの外で、completions APIを通じて直接プロンプトされました。そのためQ3CNには、推論しないモデルであり、基本的なCoTを求めるプロンプトがされていないという欠点がありました。
| gemma-4-31B-it-UD-Q4_K_XL (18.8 GB) | Qwen3.6-35B-A3B-UD-Q5_K_XL (26.6 GB) | Qwen3-Coder-Next-UD-Q4_K_XL (49.6 GB) | |
|---|---|---|---|
| 初期プロンプトトークン | 60178 | 53063 | 50288 |
| プロンプト速度(tps) | 642 | 2130 | 801 |
| 総プロンプト時間(s) | 93 | 25 | 64 |
| 生成トークン | 1938 | 5437 | 1076 |
| 応答速度(tps) | 13 | 66 | 40 |
| 総応答時間(s) | 151 | 82 | 27 |
| 次のターン | - | - | - |
| 生成トークン | 4854 | 12027 | 1195 |
| 応答速度(tps) | 12 | 59 | 34 |
| 総応答時間(s) | 396 | 204 | 35 |
いくつかの観察:
- Qwen 3.6は最も冗長で、推論でもそうですが、それでもTPSが非常に高いためGemma 4より速いです。
- Qwen 3.6は、プロンプト処理カテゴリで明確に勝っています。
- Q3CNは、かなり大きなサイズにもかかわらず、冗長さがはるかに少ないため速いです。推論がなく、能力が減っています。
- このテストの外でのエージェント的な設定では、Gemma 4がコーディングやデバッグの状況で、複雑で相反する情報に対して明確により良く対処するのを見つけました。これは、密なモデル(dense)とMoEの違いによるのかもしれません。
すべてのテストは最新のllama.cppで行い、部分オフロードは自動の適合(フィッティング)によるものです。VRAMは24 GBで、以下のオプションを使用しました:-fa on --temp 0 -np 1 -c 80000 -ctv q8_0 -ctk q8_0 -b 2048 -ub 2048
(はい、temp 0は推奨されないことは分かっていますが、現状それでも私にはうまく動いています)
[link] [comments]


