RTX 5090で同一タスクを比較:Qwen3.6-27B / Qwen3.6-35B-A3B / Qwen3.5-27B とGemma 4を実テスト

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者はRTX 5090上で、Gemma 4、Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27Bの4つのLLMを同一のアーキテクチャ文書作成タスクで横並び比較するローカル評価を行いました。
  • テストは、2つの設計書(V1が約16kトークン、V2が約4.6kトークン、合計約20.6kトークン)から統合したMasterplan.mdを作る内容で、出力を「明瞭さ」「網羅性」「規律」「有用性」の観点で採点しました。
  • 「明瞭さ」と「規律」ではGemma 4が最高点で、構成の分かりやすさ、進行のテンポ、そしてプロダクトの実体を保つ上での抑制が最も良かったとされています。
  • 「網羅性」ではQwen3.6-35B-A3Bが大きくリードし、最も徹底的なアーキテクチャ文書と、実装に厚みのある材料を生成しました。
  • ワークフローはHermesベースの執筆エージェント(“Scribe”)を共通化し、さらにGPT-5.4の“Man'y”が各段階(初稿・改訂・最終仕上げ)を指示・レビューすることで、比較の統制を高めています。

かなりシンプルだけど示唆に富むローカルLLMテストをやってみました。

最初は、2つのQwensとGemma4について投稿して寝るつもりでした。ところがどうでしょう、redditを見たらQwen 3.6-27Bが出たという投稿を見つけました。まあ…

テストしたモデル:

  • Gemma4
    • cyankiwi/gemma-4-31B-it-AWQ-4bit
  • Qwen3.6-35B
    • RedHatAI/Qwen3.6-35B-A3B-NVFP4
  • Qwen3.5-27B
    • QuantTrio/Qwen3.5-27B-AWQ
  • Qwen3.6-27B
    • cyankiwi/Qwen3.6-27B-AWQ-INT4

背景: ノイズのある証拠を受け取り、それを構造化された「真実レポート」に変換する、わりと複雑なツールを作っています。

同じHermesのライティングエージェント(「Scribe」)に、同じタスクを与えました。:

建築のブループリント文書を2つ(v1のベースライン + v2の拡張)取り、「truth engine」を説明する内容をもとに、統一した `Masterplan.md` を作成し、次を説明する:

- 製品は何か

- ユーザーの課題

- UX/プロダクトの形

- UVP/モート

- パイプライン

- エージェントの役割

- アーキテクチャ

- 信頼/法務/来歴(プロヴナンス)の姿勢

- 計画V1とV2の間で何が変わったか

V1: 約16kトークン、

V2: 約4.6kトークン、

合計: 約20.6kトークン

その後、RTX 5090上で4つのモデルすべてについて、ローカルで完全なワークフローを回しました:

- **Gemma4**
- **Qwen3.6-35B**
- **Qwen3.5-27B**
- **Qwen3.6-27B**

公平にしてモデルを出し切らせるために、各モデルに同じように:

  1. 初稿

  2. 2回目の推敲(リビジョン)

  3. 最終の仕上げ(ポリッシュ)

各ステージは、GPT-5.4の私のエージェントであるMannyが指示しレビューしたので、「一回聞いて雰囲気を比べただけ」ではありません。

## 私/Mannyが付けた評価

- **明瞭さ(Clarity)**

- **網羅性(Completeness)**

- **規律(Discipline)**

- **有用性(Usefulness)**

## 最終結果

### Clarity(明瞭さ)

- Gemma4: **9.4**

- Qwen3.6-27B: **8.8**

- Qwen3.6-35B: **8.1**

- Qwen3.5-27B: **7.4**

**勝者: Gemma4**(ただしコストは後述)

Gemmaは編集者として最良でした。最もきれいな構造、最良のテンポ、最も強い自制。

---

### Completeness(網羅性)

- Qwen3.6-35B: **9.6**

- Qwen3.5-27B: **9.1**

- Qwen3.6-27B: **8.7**

- Gemma4: **7.9**

**勝者: Qwen3.6-35B**

35BのQwenは、はるかに最も徹底的なアーキテクチャ文書を書きました。最良の資料集で、実装のボリュームが最も大きい。

---

### Discipline(規律)

- Gemma4: **9.5**

- Qwen3.6-27B: **8.6**

- Qwen3.6-35B: **7.7**

- Qwen3.5-27B: **6.8**

**勝者: Gemma4**

Gemmaは実際の製品アイデンティティを最もよく保持しました

---

### Usefulness(有用性)

- Qwen3.6-27B: **9.3**

- Qwen3.6-35B: **9.2**

- Gemma4: **8.9**

- Qwen3.5-27B: **8.8**

**勝者: Qwen3.6-27B**

これは意外でした。27BのQwen 3.6は結局、最良の「全体としての実用的な作業馬(workhorse)」になりました — 他のものよりも、深さ・読みやすさ・使いやすさのバランスが良いです。

## 最終順位

1. **Qwen3.6-27B** — 最良の総合バランス

  1. **Gemma4** — 最良の編集者 / 戦略家

  2. **Qwen3.6-35B** — 最良の徹底した下書き職人

  3. **Qwen3.5-27B** — しっかりしているが、このタスクでは他のものに明確に一歩遅れる

1) 最良の総合バランス

Qwen3.6-27B これが新しい面白い勝者です。

明瞭さや規律に関してはGemma4に負けません。
網羅性に関してもQwen3.6-35Bに負けません。

しかし、実際の稼働するマスタープランで最も重要なところで勝っています: バランスです。次の要素の間の最良の折衷案になっています:

  • 読みやすさ
  • 網羅性
  • 構造
  • 実用的な有用性

2) 最良の編集者 / 最良の戦略家

Gemma4 目的が次なら:

  • 最もきれいに仕上がった文書
  • 最も強いエグゼクティブ向けの読みやすさ
  • 最良の自制
  • 「これは本当に意図して計画した感じがする」

その場合でも、Gemmaが勝ちます。

3) 最良の徹底的なアーキテクチャ採掘場

Qwen3.6-35B 目的が次なら:

  • 最大の実装ボリューム
  • 最大のアーキテクチャ資料集
  • 下流の文書のための最も豊富な掘り出し素材

その場合でも、Qwen3.6-35Bは依然として怪物です。

4) 4位

Qwen3.5-27B 悪くない。恥ずかしくもない。
でも、この種の長文のアーキテクチャ/プランニング作業に関しては、今は明確にQwen3.6の両バリアントとGemmaの両方より後ろです。

## 実際の学び

結果はかなりきれいに分かれました:

- **Gemma4 = ベストな編集**

- **Qwen3.6-35B = ベストな拡張(expander)**

- **Qwen3.6-27B = ベストな実用的デフォルト**

- **Qwen3.5-27B = 評価できるが勝者ではない**

なので、今日この時点で長文のアーキテクチャ/マスタープラン作業のためのデフォルトのローカル文章ワーカーを選ぶなら、たぶん:

**Qwen3.6-27B****

次の要素の間の最良の折衷案だからです:

- 読みやすさ

- 網羅性

- 構造

- 実用的な有用性

Gemma 4についての個人的メモ: 最終出力は、Qwensより大幅に短かったです。

  • Gemma4147 lines
  • Qwen3.6-35B725 lines
  • Qwen3.5-27B840 lines
  • Qwen3.6-27B555 lines

つまり「少ない方が良いことが多い」という意見には同意するものの、Gemma4の出力は技術的な深さと詳細の両面で物足りないと感じました。確かに中核の概念は捉えていますが、私はその出力をピッチデック、あるいは高レベルのコンセプトのような位置づけにするでしょう。技術的な詳細や概念は、しかし大きく欠けています。
一方で反対側にいるのがQwen3.6-35Bで、体積はその5倍提供されました。その文書は、実際に技術的なブループリントやアーキテクチャ実装のバイブルとして機能し得ます。Qwen3.5-27Bはさらに多く出しましたが、これは量が質を上回っていました。
正直、私はGemma4をMannyよりも低く評価していたと思うので、その点はどう受け止めるかお任せします。

初稿のみのパフォーマンスなら、私はこう順位付けます:

ワンショット順位

  1. Qwen3.6-27B
  2. Qwen3.6-35B
  3. Qwen3.5-27B
  4. Gemma4

理由

1) Qwen3.6-27B

出だしから最高のバランス:

  • 強いプロダクトの枠組み(プロダクト・フレーミング)
  • しっかりした構造
  • 良い密度
  • 他のQwensよりも無駄に膨らんでいない
  • Gemmaの初稿よりもより完全

これは最良の生の第一撃でした。

2) Qwen3.6-35B

かなり強いワンショットの下書きですが、より広がりがち:

  • 最も網羅的
  • 実装のボリュームが最も豊富
  • 過剰に含めてしまいやすい
  • 最初のパスでは、洗練されたマスタープランというよりは資料集の方が良い

最大限の生の素材が欲しいなら、これが怪物でした。

3) Qwen3.5-27B

良い初稿生成器ですが、雑:

  • 野心的
  • 広範
  • コンテンツ量が多い
  • 3.6モデルよりも規律とまとまりが弱い

それでも役に立つのですが、両方の3.6バリアントより明確に後ろです。

4) Gemma4

Gemma(おそらく)は最終的に磨き上げた文書のコンテストでは勝ったのですが、初稿コンテストでは勝っていませんでした。そのワンショットの挙動は:

  • 圧縮しすぎ
  • 選びすぎ
  • 初期タスクに対して十分に徹底していない

より中身を増やすには、その後の推敲パスが必要でした。これは、見る人(対象者)によっては良いことにも悪いことにもなり得ます。

短い版

  • ベストなワンショット: Qwen3.6-27B
  • 推敲・整形後のベスト: Gemma4
提出者: /u/Gazorpazorp1
[リンク] [コメント]