Gemma4 は今週の初めに Google が4月2日にリリースしたので、ローカルでのエージェント型コーディングにおいて Qwen3.5 と比べてどれくらい性能が出るのか見てみたかったです。この投稿は、2つのモデルファミリーをベンチマークした際の私のメモです。実施したテストは2種類です:
- 通常の llama-bench ベンチマーク(プリフィルおよび生成速度のため)
- 単発のエージェント型コーディングタスク(Open Code を使って、実際の複数ステップのコーディングワークフローでこれらのモデルがどう動くかを確認)
私の選びは Qwen3.5-27B です。これは 24GB カード(RTX 3090/4090)でのローカルのエージェント型コーディング向けとして、依然として最良のモデルです。信頼性が高く、効率的で、最もきれいなコードを生成し、4090 でも余裕を持って収まります。
| Model | Gen tok/s | Turn(correct) | Code Quality | VRAM | Max Context |
|---|---|---|---|---|---|
| Gemma4-26B-A4B | ~135 | 3rd | Weakest | ~21 GB | 256K |
| Qwen3.5-35B-A3B | ~136 | 2nd | Best structure, wrong API | ~23 GB | 200K |
| Qwen3.5-27B | ~45 | 1st | Cleanest and best overall | ~21 GB | 130K |
| Gemma4-31B | ~38 | 1st | Clean but shallow | ~24 GB | 65K |
Max Context は、許容できる生成速度で VRAM に収まる最大のコンテキストサイズです。
- MoE モデルは生成が約3倍速い(~135 tok/s vs ~45 tok/s)ですが、どちらの密(dense)モデルも複雑なタスクを初回で正しく解けました。どちらの MoE モデルもリトライが必要でした。
- Qwen3.5-35B-A3B は最も冗長(複雑タスクで32Kトークン)だったようです。
- Gemma4-31B の dense は、4090 では他に比べてコンテキストが制限されました。許容できる生成速度を維持するために、65K コンテキストまで下げる必要がありました。
- どのモデルも、依頼されていたにもかかわらず実際には TDD に従いませんでした。主張としては red-green の手法でしたが、実際の API にヒットする統合テストを書いていました。
- Qwen3.5-27B は最もきれいなコードを生成しました(正しい API のモデル名、型ヒント、docstring、pathlib)。Qwen3.5-35B-A3B は構造が最良でしたが、テストに API キーをハードコードしており、誤ったモデル名を使用していました。
詳しい分析メモはこちらで確認できます: https://aayushgarg.dev/posts/2026-04-05-qwen35-vs-gemma4/index.html
他の方の経験についてもぜひ話し合ったり、理解したいです。
[link] [comments]




