これは、前回の投稿(Qwen 3.6 35B と Gemma 4 26B の比較)への追記アップデートです。
特に、次の点を追試しました。1. Gemma 4 26B は量子化による“ペナルティ”の影響を受けている可能性があり、8-bit量子化なら大幅に改善したかもしれません。そこで今回は UD の Q8_K_XL でテストしてみたかったのです。2. 多くの人(私自身も)から、Qwen 3.5 27B のdense(密)モデルが、これらのテストでどのような成績になるのか知りたいという疑問がありました。3. denseモデルの話の流れで、Gemma 4 31B も入れて、どの程度の性能なのか確認したいと思いました。
完全な比較のため、前回の実行結果と統合して共有
1. テスト結果
| 指標 | Qwen3.6-35B Q4 | Gemma4-26B Q4 | Gemma4-26B Q8 | Qwen3.5-27B Q4 | Gemma4-31B Q4 |
| ベースライン失敗 | 37 | 37 | 37 | 37 | 37 |
| 修正できたテスト | 32 (86.5%) | 28 (75.7%) | 17 (45.9%) | 37 (100%) | 37 (100%) |
| 後退(回帰) | 0 | 8 | 0 | 0 | 0 |
| ネットスコア | 32 | 20 | 17 | 37 | 37 |
| まだ失敗(37件中) | 5 | 9 | 20 | 0 | 0 |
| 実行後の総失敗数 | 5 | 17 | 20 | 0 | 0 |
| ガードレール違反 | 0 | 0 | 0 | 0 | 0 |
2. トークン使用量
| 指標 | Qwen3.6 Q4 | Gemma4 26B Q4 | Gemma4 26B Q8 | Qwen3.5-27B Q4 | Gemma4 31B Q4 |
| 入力トークン | 634,965 | 1,005,964 | 703,732 | 553,137 | 1,115,666 |
| 出力トークン | 39,476 | 89,750 | 68,055 | 42,183 | 62,465 |
| 総計(I+O) | 674,441 | 1,095,714 | 771,787 | 595,320 | 1,178,131 |
| キャッシュ読み取りトークン | 4,241,502 | 3,530,520 | 3,044,400 | 7,518,047 | 3,335,808 |
| 出力/入力比率 | 1:16 | 1:11 | 1:10 | 1:13 | 1:17 |
| 修正あたりトークン | ~21K | ~39K | ~45K | ~16K | ~32K |
| ネットスコア1点あたりトークン | ~21K | ~55K | ~45K | ~16K | ~32K |
3. ツール呼び出し
| ツール | Qwen3.6 Q4 | Gemma4 26B Q4 | Gemma4 26B Q8 | Qwen3.5-27B Q4 | Gemma4 31B Q4 |
| read | 46 | 39 | 25 | 91 (1 err) | 37 |
| bash | 33 | 30 | 31 | 23 | 29 |
| edit | 14 | 13 | 12 (1 err) | 31 | 21 |
| grep | 16 | 10 | 6 | 33 | 6 |
| write | 1 | 0 | 4 | 1 | 1 |
| glob | 1 | 1 | 3 | 1 | 2 |
| todowrite | 4 | 3 | 1 | 1 | 4 |
| 合計 | 115 | 96 | 82 | 181 | 100 |
| 成功 | 115 (100%) | 96 (100%) | 81 (98.8%) | 180 (99.4%) | 100 (100%) |
| 失敗 | 0 | 0 | 1 | 1 | 0 |
| 派生指標 | Qwen3.6 Q4 | Gemma4 26B Q4 | Gemma4 26B Q8 | Qwen3.5-27B Q4 | Gemma4 31B Q4 |
| ユニークな読み取りファイル数 | 18 | 27 | 19 | 23 | 27 |
| ユニークな編集ファイル数 | 7 | 13 | 9 | 9 | 12 |
| ユニークファイルあたりの読み取り回数 | 2.6 | 1.4 | 1.3 | 4.0 | 1.4 |
| 1分あたりのツール呼び出し回数 | 2.3 | 1.1 | 1.2 | 1.2 | 0.16 |
| 修正あたりの編集回数 | 0.44 | 0.46 | 0.65 | 0.84 | 0.57 |
| Bash(pytest)実行回数 | 33 | 30 | 31 | 23 | 29 |
4. タイミングと効率
| 指標 | Qwen3.6 Q4 | Gemma4 26B Q4 | Gemma4 26B Q8 | Qwen3.5-27B Q4 | Gemma4 31B Q4 |
| ウォールクロック | 2,950s (49m) | 5,129s (85m) | 4,142s (69m) | 8,698s (145m) | 37,748s (629m) |
| 総ステップ数 | 120 | 104 | 88 | 186 | 109 |
| 平均ステップ時間 | 10.0s | 21.7s | 24.0s | 15.9s | 82.2s |
5. モデルとサーバ設定
| 項目 | Qwen3.6-35B Q4 | Gemma4-26B Q4 | Gemma4-26B Q8 | Qwen3.5-27B Q4 | Gemma4-31B Q4 |
| 総パラメータ数 | 35B | 26B | 26B | 27B | 31B |
| アクティブパラメータ数 | 3B | 4B | 4B | 27B | 31B |
| 量子化 | Q4_K_XL | Q4_K_XL | Q8_K_XL | Q4_K_XL | Q4_K_XL |
| コンテキスト | 100,000 | 100,000 | 100,000 | 100,000 | 100,000 |
| temperature | 0.6 | 1.0 | 1.0 | 0.6 | 1.0 |
| top_p | 0.95 | 0.95 | 0.95 | 0.95 | 0.95 |
| top_k | 20 | 64 | 64 | 20 | 64 |
主な観察結果
- Gemma 4 26B の性能は、Q8でもだいたい同じ範囲に留まっています。この実行ではQ4よりも少し悪化しましたが、そのばらつきはノイズである可能性が高いです。私は引き続き Q4_K_XL の量子化を使います
- Qwen 3.5 27B と Gemma 4 31B はどちらもテストを完璧に突破しました。denseモデルは、MoEのものとは別の土俵です。(特に Gemma 31B)
- Gemma 4 31B は、ツール呼び出しの観点で最も効率的です。100回のツール呼び出しすべてをエラーなしで修正できました
- Qwen 3.5 27B は、1回の修正あたり平均16kトークンという形で、最もトークン効率が良いモデルです。
- Gemma 4 31B はまた、何らかの理由で推論速度が非常に遅く、極端に遅い速度のために10時間29分かけて実行されました。さらに、-cram と -ctkcp のフラグを付けても、DRAM は最大で70GBまで膨らみました。これが予想される挙動なのかどうかは分かりません。
私のテストではGemma4 31Bが客観的に最も高い能力を示しましたが、同時に私の環境設定ではこの中で一番遅いです。Qwen 3.5 27Bは、より許容しやすい速度で同等の性能を引き継ぎます。Qwen 3.6 35Bは速度対性能のチャンピオンのままで、その同じ理由で私の日常的なメイン機として使い続けます。
送信者
/u/Lowkey_LokiSN [link] [comments]