かなりシンプルだけど示唆に富むローカルLLMテストをやってみました。
最初は、2つのQwensとGemma4について投稿して寝るつもりでした。ところがどうでしょう、redditを見たらQwen 3.6-27Bが出たという投稿を見つけました。まあ…
テストしたモデル:
- Gemma4
cyankiwi/gemma-4-31B-it-AWQ-4bit
- Qwen3.6-35B
RedHatAI/Qwen3.6-35B-A3B-NVFP4
- Qwen3.5-27B
QuantTrio/Qwen3.5-27B-AWQ
- Qwen3.6-27B
cyankiwi/Qwen3.6-27B-AWQ-INT4
背景: ノイズのある証拠を受け取り、それを構造化された「真実レポート」に変換する、わりと複雑なツールを作っています。
同じHermesのライティングエージェント(「Scribe」)に、同じタスクを与えました。:
建築のブループリント文書を2つ(v1のベースライン + v2の拡張)取り、「truth engine」を説明する内容をもとに、統一した `Masterplan.md` を作成し、次を説明する:
- 製品は何か
- ユーザーの課題
- UX/プロダクトの形
- UVP/モート
- パイプライン
- エージェントの役割
- アーキテクチャ
- 信頼/法務/来歴(プロヴナンス)の姿勢
- 計画V1とV2の間で何が変わったか
V1: 約16kトークン、
V2: 約4.6kトークン、
合計: 約20.6kトークン
その後、RTX 5090上で4つのモデルすべてについて、ローカルで完全なワークフローを回しました:
- **Gemma4**
- **Qwen3.6-35B**
- **Qwen3.5-27B**
- **Qwen3.6-27B**
公平にしてモデルを出し切らせるために、各モデルに同じように:
初稿
2回目の推敲(リビジョン)
最終の仕上げ(ポリッシュ)
各ステージは、GPT-5.4の私のエージェントであるMannyが指示しレビューしたので、「一回聞いて雰囲気を比べただけ」ではありません。
## 私/Mannyが付けた評価
- **明瞭さ(Clarity)**
- **網羅性(Completeness)**
- **規律(Discipline)**
- **有用性(Usefulness)**
## 最終結果
### Clarity(明瞭さ)
- Gemma4: **9.4**
- Qwen3.6-27B: **8.8**
- Qwen3.6-35B: **8.1**
- Qwen3.5-27B: **7.4**
**勝者: Gemma4**(ただしコストは後述)
Gemmaは編集者として最良でした。最もきれいな構造、最良のテンポ、最も強い自制。
---
### Completeness(網羅性)
- Qwen3.6-35B: **9.6**
- Qwen3.5-27B: **9.1**
- Qwen3.6-27B: **8.7**
- Gemma4: **7.9**
**勝者: Qwen3.6-35B**
35BのQwenは、はるかに最も徹底的なアーキテクチャ文書を書きました。最良の資料集で、実装のボリュームが最も大きい。
---
### Discipline(規律)
- Gemma4: **9.5**
- Qwen3.6-27B: **8.6**
- Qwen3.6-35B: **7.7**
- Qwen3.5-27B: **6.8**
**勝者: Gemma4**
Gemmaは実際の製品アイデンティティを最もよく保持しました
---
### Usefulness(有用性)
- Qwen3.6-27B: **9.3**
- Qwen3.6-35B: **9.2**
- Gemma4: **8.9**
- Qwen3.5-27B: **8.8**
**勝者: Qwen3.6-27B**
これは意外でした。27BのQwen 3.6は結局、最良の「全体としての実用的な作業馬(workhorse)」になりました — 他のものよりも、深さ・読みやすさ・使いやすさのバランスが良いです。
## 最終順位
1. **Qwen3.6-27B** — 最良の総合バランス
**Gemma4** — 最良の編集者 / 戦略家
**Qwen3.6-35B** — 最良の徹底した下書き職人
**Qwen3.5-27B** — しっかりしているが、このタスクでは他のものに明確に一歩遅れる
1) 最良の総合バランス
Qwen3.6-27B これが新しい面白い勝者です。
明瞭さや規律に関してはGemma4に負けません。
網羅性に関してもQwen3.6-35Bに負けません。
しかし、実際の稼働するマスタープランで最も重要なところで勝っています: バランスです。次の要素の間の最良の折衷案になっています:
- 読みやすさ
- 網羅性
- 構造
- 実用的な有用性
2) 最良の編集者 / 最良の戦略家
Gemma4 目的が次なら:
- 最もきれいに仕上がった文書
- 最も強いエグゼクティブ向けの読みやすさ
- 最良の自制
- 「これは本当に意図して計画した感じがする」
その場合でも、Gemmaが勝ちます。
3) 最良の徹底的なアーキテクチャ採掘場
Qwen3.6-35B 目的が次なら:
- 最大の実装ボリューム
- 最大のアーキテクチャ資料集
- 下流の文書のための最も豊富な掘り出し素材
その場合でも、Qwen3.6-35Bは依然として怪物です。
4) 4位
Qwen3.5-27B 悪くない。恥ずかしくもない。
でも、この種の長文のアーキテクチャ/プランニング作業に関しては、今は明確にQwen3.6の両バリアントとGemmaの両方より後ろです。
## 実際の学び
結果はかなりきれいに分かれました:
- **Gemma4 = ベストな編集**
- **Qwen3.6-35B = ベストな拡張(expander)**
- **Qwen3.6-27B = ベストな実用的デフォルト**
- **Qwen3.5-27B = 評価できるが勝者ではない**
なので、今日この時点で長文のアーキテクチャ/マスタープラン作業のためのデフォルトのローカル文章ワーカーを選ぶなら、たぶん:
**Qwen3.6-27B****
次の要素の間の最良の折衷案だからです:
- 読みやすさ
- 網羅性
- 構造
- 実用的な有用性
Gemma 4についての個人的メモ: 最終出力は、Qwensより大幅に短かったです。
- Gemma4 → 147 lines
- Qwen3.6-35B → 725 lines
- Qwen3.5-27B → 840 lines
- Qwen3.6-27B → 555 lines
つまり「少ない方が良いことが多い」という意見には同意するものの、Gemma4の出力は技術的な深さと詳細の両面で物足りないと感じました。確かに中核の概念は捉えていますが、私はその出力をピッチデック、あるいは高レベルのコンセプトのような位置づけにするでしょう。技術的な詳細や概念は、しかし大きく欠けています。
一方で反対側にいるのがQwen3.6-35Bで、体積はその5倍提供されました。その文書は、実際に技術的なブループリントやアーキテクチャ実装のバイブルとして機能し得ます。Qwen3.5-27Bはさらに多く出しましたが、これは量が質を上回っていました。
正直、私はGemma4をMannyよりも低く評価していたと思うので、その点はどう受け止めるかお任せします。
初稿のみのパフォーマンスなら、私はこう順位付けます:
ワンショット順位
- Qwen3.6-27B
- Qwen3.6-35B
- Qwen3.5-27B
- Gemma4
理由
1) Qwen3.6-27B
出だしから最高のバランス:
- 強いプロダクトの枠組み(プロダクト・フレーミング)
- しっかりした構造
- 良い密度
- 他のQwensよりも無駄に膨らんでいない
- Gemmaの初稿よりもより完全
これは最良の生の第一撃でした。
2) Qwen3.6-35B
かなり強いワンショットの下書きですが、より広がりがち:
- 最も網羅的
- 実装のボリュームが最も豊富
- 過剰に含めてしまいやすい
- 最初のパスでは、洗練されたマスタープランというよりは資料集の方が良い
最大限の生の素材が欲しいなら、これが怪物でした。
3) Qwen3.5-27B
良い初稿生成器ですが、雑:
- 野心的
- 広範
- コンテンツ量が多い
- 3.6モデルよりも規律とまとまりが弱い
それでも役に立つのですが、両方の3.6バリアントより明確に後ろです。
4) Gemma4
Gemma(おそらく)は最終的に磨き上げた文書のコンテストでは勝ったのですが、初稿コンテストでは勝っていませんでした。そのワンショットの挙動は:
- 圧縮しすぎ
- 選びすぎ
- 初期タスクに対して十分に徹底していない
より中身を増やすには、その後の推敲パスが必要でした。これは、見る人(対象者)によっては良いことにも悪いことにもなり得ます。
短い版
- ベストなワンショット: Qwen3.6-27B
- 推敲・整形後のベスト: Gemma4
[リンク] [コメント]




