ローカルでのエージェンティック・コーディングにおけるQwen3.5 vs Gemma4の比較

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本投稿では、ローカルでのエージェンティック・コーディング用途として、GoogleのGemma4(4月2日リリース)をQwen3.5とベンチマークし、llama-benchの速度テストと、Open Codeによる単発のマルチステップ・コーディング課題の両方を用いて比較している。
  • 全モデルにおいて、MoE(Mixture of Experts)系のバリアントは実質的に大幅に高速(約135 tok/s vs 約45 tok/s)だが、複雑な課題ではどちらも正しい解を出したものの、リトライが必要だった。
  • 24GBクラスのGPU(例:RTX 3090/4090)での実用的な「ローカル・エージェンティック・コーディング」では、著者の最優先推奨は信頼性、効率的なパフォーマンス、そして総合的に最もクリーンなコード品質を理由に、Qwen3.5-27Bである。
  • ベンチマークは、スループットと実用可能なコンテキスト長のトレードオフを示している。Gemma4-31Bは生成速度を許容できる水準に保つために、コンテキストを約65Kにまで減らす必要があった一方、Qwen3.5のバリアントはより大きなコンテキストに対応できた。
  • テスト駆動開発(TDD)を行うようプロンプトされたにもかかわらず、いずれのモデルも要求されたレッドグリーン/TDDパターンに従わなかった。Qwen3.5-27Bは、正しいAPI利用とコード衛生(型ヒント/docstring/pathlib)への適合が最も良かった。

Gemma4 は今週の初めに Google が4月2日にリリースしたので、ローカルでのエージェント型コーディングにおいて Qwen3.5 と比べてどれくらい性能が出るのか見てみたかったです。この投稿は、2つのモデルファミリーをベンチマークした際の私のメモです。実施したテストは2種類です:

  • 通常の llama-bench ベンチマーク(プリフィルおよび生成速度のため)
  • 単発のエージェント型コーディングタスクOpen Code を使って、実際の複数ステップのコーディングワークフローでこれらのモデルがどう動くかを確認)

私の選びは Qwen3.5-27B です。これは 24GB カード(RTX 3090/4090)でのローカルのエージェント型コーディング向けとして、依然として最良のモデルです。信頼性が高く、効率的で、最もきれいなコードを生成し、4090 でも余裕を持って収まります。

Model Gen tok/s Turn(correct) Code Quality VRAM Max Context
Gemma4-26B-A4B ~135 3rd Weakest ~21 GB 256K
Qwen3.5-35B-A3B ~136 2nd Best structure, wrong API ~23 GB 200K
Qwen3.5-27B ~45 1st Cleanest and best overall ~21 GB 130K
Gemma4-31B ~38 1st Clean but shallow ~24 GB 65K

Max Context は、許容できる生成速度で VRAM に収まる最大のコンテキストサイズです。

  • MoE モデルは生成が約3倍速い(~135 tok/s vs ~45 tok/s)ですが、どちらの密(dense)モデルも複雑なタスクを初回で正しく解けました。どちらの MoE モデルもリトライが必要でした。
  • Qwen3.5-35B-A3B は最も冗長(複雑タスクで32Kトークン)だったようです。
  • Gemma4-31B の dense は、4090 では他に比べてコンテキストが制限されました。許容できる生成速度を維持するために、65K コンテキストまで下げる必要がありました。
  • どのモデルも、依頼されていたにもかかわらず実際には TDD に従いませんでした。主張としては red-green の手法でしたが、実際の API にヒットする統合テストを書いていました。
  • Qwen3.5-27B は最もきれいなコードを生成しました(正しい API のモデル名、型ヒント、docstring、pathlib)。Qwen3.5-35B-A3B は構造が最良でしたが、テストに API キーをハードコードしており、誤ったモデル名を使用していました。

詳しい分析メモはこちらで確認できます: https://aayushgarg.dev/posts/2026-04-05-qwen35-vs-gemma4/index.html

他の方の経験についてもぜひ話し合ったり、理解したいです。

submitted by /u/garg-aayush
[link] [comments]