Gemma 4 31B vs Gemma 4 26B-A4B vs Qwen 3.5 27B — Claude Opus 4.6を審判にした30問ブラインド評価

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 30問のブラインドによる一対一比較で、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27Bを比較し、Claude Opus 4.6が各応答を0〜10のルーブリックで独立に採点した。
  • Qwen 3.5 27Bが最も多くの項目を獲得(14/30、46.7%)したが、フォーマット失敗や拒否に起因する0.0の採点が3件あったため、全体の平均が下がった。
  • Gemma 4 31BとGemma 4 26B-A4Bは平均スコアで同点(8.82)であり、Qwenの平均は(それらの極端な0.0によって)低かった(8.17)。
  • 3件の0.0ケースを除外すると、著者はQwenの平均が約9.08まで上がると報告しており、「うまく詰まらなければ」最良である可能性を示唆する一方、評価条件下では信頼性が低い可能性がある。
  • カテゴリ別の結果では、Qwenが推論・分析でリードし、Gemma 4 31Bがコミュニケーションでリード、メタ整合性(meta-alignment)は各モデル間でほぼ均等に分かれた。

3つ巴(3-way)の正面対決を終えました。同じサブに投稿してくれる人は手法の穴を突くのが上手なので、生の結果を共有します。自分のセットアップが完璧だとごまかすより、そのフィードバックを得たいからです。

セットアップ

  • 質問30問、カテゴリごとに6問(コード、推論、分析、コミュニケーション、メタアラインメント)
  • 3モデルすべてが同じ質問に対してブラインドで回答 — システムプロンプトの違いなし、同じ温度
  • Claude Opus 4.6が各レスポンスを独立に、0〜10のスケールで構造化されたルーブリックに基づいて採点(「どれがより良いか」ではなく、レスポンスごとの絶対評価)
  • 単一のジャッジで、入れ替えて平均を取る方式はこの回では不採用 — それによるポジショナルバイアスのリスクがあるのは分かっています。ただ、Opus 4.6は以前のバッチで99.9%のパース成功率だったので、マルチジャッジのノイズより一貫性を優先しました
  • 総コスト:$4.50

勝ち数(各質問で最高スコアを取ったモデル)

モデル 勝利 勝率
Qwen 3.5 27B 14 46.7%
Gemma 4 31B 12 40.0%
Gemma 4 26B-A4B 4 13.3%

平均スコア

モデル 平均スコア 評価数
Gemma 4 31B 8.82 30
Gemma 4 26B-A4B 8.82 28
Qwen 3.5 27B 8.17 30

聞かれる前に — ええ、Qwenは対戦ではより多く勝っていますが、平均は低いです。理由は、0.0のスコアが3つ(CODE-001、REASON-004、ANALYSIS-017)あったからです。これらは、真にひどい回答というより、フォーマット失敗や拒否のように見えます。これらを除くと、Qwenの平均は約9.08に跳ね上がり、3つのうちで最も高くなります。したがって本当の話はおそらく:Qwen 3.5 27Bは、詰まない限りここで最良のモデルですが、詰まるのは10%の確率です。

カテゴリ別内訳

カテゴリ リーダー
コード 同率 — Gemma 4 31B と Qwen(各3)
推論 Qwenが支配(6問中5問)
分析 Qwenが支配(6問中4問)
コミュニケーション Gemma 4 31Bが支配(6問中5問)
メタアラインメント 3分割(2-2-2)

他に気づいたこと

  • Gemma 4 26B-A4B(MoEバリアント)は、2つの質問で完全にエラーになりました。動いたときのスコアは、密な31Bとほぼ完全に一致しており、同じ8.82の平均でした。Googleが信頼性を改善してくれるなら、面白い効率の物語になりそうです。
  • Gemma 4 31Bは応答時間が異様に長いケースがあり、複数回で5分程度の生成がありました。強めの内部チェーン・オブ・ソートを使っているように見えます。より良いスコアとの相関はありませんでした。
  • Qwen 3.5 27Bは、平均で1回答あたり3〜5倍のトークンを生成します。冗長さによるコストは現実のものですが、審査員はそれを一貫して罰したり報酬を与えたりしているようには見えませんでした。

手法上の注意点(このサブが気にして当然なので)

  • 30問は少ないサンプルです。有意な統計的結論を主張するつもりはなく、単にシグナルを共有しているだけです。
  • 単一のジャッジ(Opus 4.6)なので、ジャッジが持っている体系的なバイアスは、すべてのスコアにそのまま現れます。以前にマルチジャッジのパネルで検証し、追随具合は良かったのですが、それでも1つのモデルの意見であることに変わりはありません。
  • LLM-as-judgeには既知の問題があります:冗長さバイアス、自分への好みバイアス、ポジショナルバイアス。私はこれを減らすために絶対スコアリング(ペア比較ではない)を使っていますが、それでも完全には排除できません。
  • 質問は私自身のオリジナルで、標準ベンチマークから引っ張ったものではありません。そのため汚染はありませんが、同時に「何が重要か」についての私のバイアスも反映しています。

誰かが掘り下げたいなら、質問ごとの生スコアも共有できます。ローカルでGemma 4を回した経験はどうでしたか? 自分が見たレイテンシのスパイクは、量子化レベルが違っても一貫して起きるのか気になります。

submitted by /u/Silver_Raspberry_811
[link] [comments]