(注: SLM resultsスレッドの数名がQwen 3.5モデルを求めていました。これによってそれが実現されます。)
私のSLM resultsスレッドの人々はQwen 3.5の数値を求めていました。8つのQwenモデルを対等に比較し、11の難易度の高い評価を実施しました:生存バイアス、Arrowの不可能性定理、ケリー基準、シンプソンのパラドックス(正確な数値を構築)、ベイズ確率、TTL付きLRUキャッシュ、Node.js 502デバッグ、SQL最適化、Goの並行性バグ、分散ロックの競合状態、そしてベースラインの文字列反転。
SLMバッチと同じ方法論。すべてのモデルが同じプロンプトを見ます。すべての回答はプール内の他のモデルによってブラインド審査されます。総数704件中、412件が有効な判断でした。
結果:
| 順位 | モデル | 世代 | 有効パラメータ数 | 平均スコア | 勝利数 | トップ3 | 平均 σ |
|---|---|---|---|---|---|---|---|
| 1 | Qwen 3 32B | 3.0 | 32B (dense) | 9.63 | 0 | 5/6 | 0.47 |
| 2 | Qwen 3.5 397B-A17B | 3.5 | 17B (MoE) | 9.40 | 4 | 6/10 | 0.56 |
| 3 | Qwen 3.5 122B-A10B | 3.5 | 10B (MoE) | 9.30 | 2 | 6/9 | 0.47 |
| 4 | Qwen 3.5 35B-A3B | 3.5 | 3B (MoE) | 9.20 | 4 | 6/9 | 0.69 |
| 5 | Qwen 3.5 27B | 3.5 | 27B | 9.11 | 1 | 4/10 | 0.68 |
| 6 | Qwen 3 8B | 3.0 | 8B (dense) | 8.69 | 0 | 4/11 | 0.97 |
| 7 | Qwen 3 Coder Next | 3.0 | — | 8.45 | 0 | 2/11 | 0.84 |
| 8 | Qwen 3.5 9B | 3.5 | 9B | 8.19 | 0 | 0/7 | 1.06 |
予想外だった3つの発見:
- 旧世代の Qwen 3 32B (dense) は、すべての Qwen 3.5 MoE モデルを上回った。397B フラグシップとの差は0.23ポイントで、総スプレッドが1.44のときには意味のある差だ。私はフラグシップが優位に立つと予想していたが、そうはならなかった。
- Qwen 3.5 35B-A3B は、3Bの有効パラメータしかない状態で4つの評価で勝利した。397Bフラグシップと同じ勝利数。シンプソンのパラドックスで完璧な10.00を叩き出した。家庭用ハードウェアでローカルにQwenを実行している人にとって、このモデルは実効パラメータ数に比して信じられないほど優れた性能を示す。
- Qwen 3 Coder Next は、コーディング専門として全体で7位(8.45)。9Bを除くすべての汎用モデルよりも下。Go の並行性(9.09 対 9.77 の 122B-A10B)、分散ロック(9.14 対 9.74 の 397B-A17B)、SQL 最適化(9.38 対 9.55 の 397B-A17B)では汎用モデルに敗れた。
効率データ(この情報を見る r/LocalLLM 観客の方へ:
| Model | Avg Time (s) | Score/sec | Avg Score |
|---|---|---|---|
| Qwen 3 Coder Next | 16.9 | 0.87 | 8.45 |
| Qwen 3.5 35B-A3B | 25.3 | 0.54 | 9.20 |
| Qwen 3.5 122B-A10B | 33.1 | 0.52 | 9.30 |
| Qwen 3.5 397B-A17B | 51.0 | 0.36 | 9.40 |
| Qwen 3 32B | 96.7 | 0.31 | 9.63 |
| Qwen 3.5 9B | 39.1 | 0.26 | 8.19 |
| Qwen 3.5 27B | 83.2 | 0.22 | 9.11 |
| Qwen 3 8B | 156.1 | 0.15 | 8.69 |
Sweet spot: 35B-A3B at 0.54 pts/sec. Fastest: Coder Next at 0.87 but 7th in quality. The quality leader (32B) takes 97 seconds average, which rules it out for anything interactive.
What I do not know and want to be honest about:
Only 58.5% of judgments were valid (412 of 704). The 41.5% failure rate is a data quality problem. I checked whether invalid judgments would flip the order by simulating recovery with the strict-judge average. The top 2 positions held, but ranks 3-5 are within the noise margin.
The judge pool had a clean generational split: every Qwen 3 model judged leniently (avg 9.50+), every Qwen 3.5 model judged strictly (avg 8.25). I do not know if this is a calibration artifact or a genuine difference in how these generations evaluate quality. It adds noise.
Qwen 3 32B appeared in only 6 of 11 evals (API failures on the others). Its higher average may partly reflect a smaller, easier sample. Caveat accordingly.
Questions:
- ローカルでQwen 3 32Bを動かしている方へ:経験上、3.5モデルを一貫して上回っていますか?それともAPIルーティングのアーティファクトですか?
- 消費者向けGPUで 35B-A3B を動かしている人はいますか?3Bの有効パラメータであれば、3090/4090 で高速で動作するはずです。どのスループットを得ていますか?
- dense 対 MoE の結果は興味深い。難解な多段推論では dense 32B がすべての MoE モデルを上回った。これは MoE のルーティングが新しい推論チェーンに適切なエキスパートを選択しないせいなのか、それとも Qwen 3 の訓練データが単により良いのか?
- コード生成の専門モデルがコードで一般モデルに敗れる:他の“coder”ブランドのモデルでもこの傾向を見た人はいますか?
すべての11回の評価、各モデルの応答、すべての判断の生データ: github.com/themultivac/multivac-evaluation
分析を含む解説: open.substack.com/pub/themultivac/p/qwen-3-32b-outscored-every-qwen-35
[リンク] [コメント]