3つ巴(3-way)の正面対決を終えました。同じサブに投稿してくれる人は手法の穴を突くのが上手なので、生の結果を共有します。自分のセットアップが完璧だとごまかすより、そのフィードバックを得たいからです。
セットアップ
- 質問30問、カテゴリごとに6問(コード、推論、分析、コミュニケーション、メタアラインメント)
- 3モデルすべてが同じ質問に対してブラインドで回答 — システムプロンプトの違いなし、同じ温度
- Claude Opus 4.6が各レスポンスを独立に、0〜10のスケールで構造化されたルーブリックに基づいて採点(「どれがより良いか」ではなく、レスポンスごとの絶対評価)
- 単一のジャッジで、入れ替えて平均を取る方式はこの回では不採用 — それによるポジショナルバイアスのリスクがあるのは分かっています。ただ、Opus 4.6は以前のバッチで99.9%のパース成功率だったので、マルチジャッジのノイズより一貫性を優先しました
- 総コスト:$4.50
勝ち数(各質問で最高スコアを取ったモデル)
| モデル | 勝利 | 勝率 |
|---|---|---|
| Qwen 3.5 27B | 14 | 46.7% |
| Gemma 4 31B | 12 | 40.0% |
| Gemma 4 26B-A4B | 4 | 13.3% |
平均スコア
| モデル | 平均スコア | 評価数 |
|---|---|---|
| Gemma 4 31B | 8.82 | 30 |
| Gemma 4 26B-A4B | 8.82 | 28 |
| Qwen 3.5 27B | 8.17 | 30 |
聞かれる前に — ええ、Qwenは対戦ではより多く勝っていますが、平均は低いです。理由は、0.0のスコアが3つ(CODE-001、REASON-004、ANALYSIS-017)あったからです。これらは、真にひどい回答というより、フォーマット失敗や拒否のように見えます。これらを除くと、Qwenの平均は約9.08に跳ね上がり、3つのうちで最も高くなります。したがって本当の話はおそらく:Qwen 3.5 27Bは、詰まない限りここで最良のモデルですが、詰まるのは10%の確率です。
カテゴリ別内訳
| カテゴリ | リーダー |
|---|---|
| コード | 同率 — Gemma 4 31B と Qwen(各3) |
| 推論 | Qwenが支配(6問中5問) |
| 分析 | Qwenが支配(6問中4問) |
| コミュニケーション | Gemma 4 31Bが支配(6問中5問) |
| メタアラインメント | 3分割(2-2-2) |
他に気づいたこと
- Gemma 4 26B-A4B(MoEバリアント)は、2つの質問で完全にエラーになりました。動いたときのスコアは、密な31Bとほぼ完全に一致しており、同じ8.82の平均でした。Googleが信頼性を改善してくれるなら、面白い効率の物語になりそうです。
- Gemma 4 31Bは応答時間が異様に長いケースがあり、複数回で5分程度の生成がありました。強めの内部チェーン・オブ・ソートを使っているように見えます。より良いスコアとの相関はありませんでした。
- Qwen 3.5 27Bは、平均で1回答あたり3〜5倍のトークンを生成します。冗長さによるコストは現実のものですが、審査員はそれを一貫して罰したり報酬を与えたりしているようには見えませんでした。
手法上の注意点(このサブが気にして当然なので)
- 30問は少ないサンプルです。有意な統計的結論を主張するつもりはなく、単にシグナルを共有しているだけです。
- 単一のジャッジ(Opus 4.6)なので、ジャッジが持っている体系的なバイアスは、すべてのスコアにそのまま現れます。以前にマルチジャッジのパネルで検証し、追随具合は良かったのですが、それでも1つのモデルの意見であることに変わりはありません。
- LLM-as-judgeには既知の問題があります:冗長さバイアス、自分への好みバイアス、ポジショナルバイアス。私はこれを減らすために絶対スコアリング(ペア比較ではない)を使っていますが、それでも完全には排除できません。
- 質問は私自身のオリジナルで、標準ベンチマークから引っ張ったものではありません。そのため汚染はありませんが、同時に「何が重要か」についての私のバイアスも反映しています。
誰かが掘り下げたいなら、質問ごとの生スコアも共有できます。ローカルでGemma 4を回した経験はどうでしたか? 自分が見たレイテンシのスパイクは、量子化レベルが違っても一貫して起きるのか気になります。
[link] [comments]




