ローカルでのエージェンティック・コーディングにおけるQwen3.5 vs Gemma4の比較

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本投稿では、ローカルでのエージェンティック・コーディング用途として、GoogleのGemma4（4月2日リリース）をQwen3.5とベンチマークし、llama-benchの速度テストと、Open Codeによる単発のマルチステップ・コーディング課題の両方を用いて比較している。
全モデルにおいて、MoE（Mixture of Experts）系のバリアントは実質的に大幅に高速（約135 tok/s vs 約45 tok/s）だが、複雑な課題ではどちらも正しい解を出したものの、リトライが必要だった。
24GBクラスのGPU（例：RTX 3090/4090）での実用的な「ローカル・エージェンティック・コーディング」では、著者の最優先推奨は信頼性、効率的なパフォーマンス、そして総合的に最もクリーンなコード品質を理由に、Qwen3.5-27Bである。
ベンチマークは、スループットと実用可能なコンテキスト長のトレードオフを示している。Gemma4-31Bは生成速度を許容できる水準に保つために、コンテキストを約65Kにまで減らす必要があった一方、Qwen3.5のバリアントはより大きなコンテキストに対応できた。
テスト駆動開発（TDD）を行うようプロンプトされたにもかかわらず、いずれのモデルも要求されたレッドグリーン/TDDパターンに従わなかった。Qwen3.5-27Bは、正しいAPI利用とコード衛生（型ヒント/docstring/pathlib）への適合が最も良かった。

Gemma4 は今週の初めに Google が4月2日にリリースしたので、ローカルでのエージェント型コーディングにおいて Qwen3.5 と比べてどれくらい性能が出るのか見てみたかったです。この投稿は、2つのモデルファミリーをベンチマークした際の私のメモです。実施したテストは2種類です:

通常の llama-bench ベンチマーク（プリフィルおよび生成速度のため）
単発のエージェント型コーディングタスク（Open Code を使って、実際の複数ステップのコーディングワークフローでこれらのモデルがどう動くかを確認）

私の選びは Qwen3.5-27B です。これは 24GB カード（RTX 3090/4090）でのローカルのエージェント型コーディング向けとして、依然として最良のモデルです。信頼性が高く、効率的で、最もきれいなコードを生成し、4090 でも余裕を持って収まります。

Model	Gen tok/s	Turn(correct)	Code Quality	VRAM	Max Context
Gemma4-26B-A4B	~135	3rd	Weakest	~21 GB	256K
Qwen3.5-35B-A3B	~136	2nd	Best structure, wrong API	~23 GB	200K
Qwen3.5-27B	~45	1st	Cleanest and best overall	~21 GB	130K
Gemma4-31B	~38	1st	Clean but shallow	~24 GB	65K

Max Context は、許容できる生成速度で VRAM に収まる最大のコンテキストサイズです。

MoE モデルは生成が約3倍速い（~135 tok/s vs ~45 tok/s）ですが、どちらの密（dense）モデルも複雑なタスクを初回で正しく解けました。どちらの MoE モデルもリトライが必要でした。
Qwen3.5-35B-A3B は最も冗長（複雑タスクで32Kトークン）だったようです。
Gemma4-31B の dense は、4090 では他に比べてコンテキストが制限されました。許容できる生成速度を維持するために、65K コンテキストまで下げる必要がありました。
どのモデルも、依頼されていたにもかかわらず実際には TDD に従いませんでした。主張としては red-green の手法でしたが、実際の API にヒットする統合テストを書いていました。
Qwen3.5-27B は最もきれいなコードを生成しました（正しい API のモデル名、型ヒント、docstring、pathlib）。Qwen3.5-35B-A3B は構造が最良でしたが、テストに API キーをハードコードしており、誤ったモデル名を使用していました。

詳しい分析メモはこちらで確認できます: https://aayushgarg.dev/posts/2026-04-05-qwen35-vs-gemma4/index.html

他の方の経験についてもぜひ話し合ったり、理解したいです。

submitted by /u/garg-aayush
[link] [comments]