AI Navigate

Qwen 3 32Bモデルは11回のブラインド評価で全てのQwen 3.5モデルを上回り、3Bアクティブパラメータモデルが4回優勝

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Qwen 3 32Bモデル(32B dense)は11回のブラインド評価で1位にランクされ、すべてのQwen 3.5モデルを上回り、平均スコアは9.63で、6件中5件でトップ3入りだった。
  • 本研究では全モデルに対して固定プロンプトを用い、プールのメンバーによるブラインド評価を実施した結果、総数704件中412件が有効判断となった。
  • 結果は、複数のQwen 3.5バリアント(例:397B-A17B、122B-A10B、35B-A3B、27B)が32B denseモデルを下回り、スコアはおおよそ9.4〜9.1の範囲で推移し、いくつかのMoE構成は密な32Bより劣っていた。
  • 評価はNode.jsデバッグ、SQL最適化、Goの並行処理、分散ロックなどを含む幅広いエンジニアリングタスクと課題をカバーしており、ベンチマークの取り組みの幅広さを示している。

(注: SLM resultsスレッドの数名がQwen 3.5モデルを求めていました。これによってそれが実現されます。)

私のSLM resultsスレッドの人々はQwen 3.5の数値を求めていました。8つのQwenモデルを対等に比較し、11の難易度の高い評価を実施しました:生存バイアス、Arrowの不可能性定理、ケリー基準、シンプソンのパラドックス(正確な数値を構築)、ベイズ確率、TTL付きLRUキャッシュ、Node.js 502デバッグ、SQL最適化、Goの並行性バグ、分散ロックの競合状態、そしてベースラインの文字列反転。

SLMバッチと同じ方法論。すべてのモデルが同じプロンプトを見ます。すべての回答はプール内の他のモデルによってブラインド審査されます。総数704件中、412件が有効な判断でした。

結果:

順位 モデル 世代 有効パラメータ数 平均スコア 勝利数 トップ3 平均 σ
1 Qwen 3 32B 3.0 32B (dense) 9.63 0 5/6 0.47
2 Qwen 3.5 397B-A17B 3.5 17B (MoE) 9.40 4 6/10 0.56
3 Qwen 3.5 122B-A10B 3.5 10B (MoE) 9.30 2 6/9 0.47
4 Qwen 3.5 35B-A3B 3.5 3B (MoE) 9.20 4 6/9 0.69
5 Qwen 3.5 27B 3.5 27B 9.11 1 4/10 0.68
6 Qwen 3 8B 3.0 8B (dense) 8.69 0 4/11 0.97
7 Qwen 3 Coder Next 3.0 8.45 0 2/11 0.84
8 Qwen 3.5 9B 3.5 9B 8.19 0 0/7 1.06

予想外だった3つの発見:

  1. 旧世代の Qwen 3 32B (dense) は、すべての Qwen 3.5 MoE モデルを上回った。397B フラグシップとの差は0.23ポイントで、総スプレッドが1.44のときには意味のある差だ。私はフラグシップが優位に立つと予想していたが、そうはならなかった。
  2. Qwen 3.5 35B-A3B は、3Bの有効パラメータしかない状態で4つの評価で勝利した。397Bフラグシップと同じ勝利数。シンプソンのパラドックスで完璧な10.00を叩き出した。家庭用ハードウェアでローカルにQwenを実行している人にとって、このモデルは実効パラメータ数に比して信じられないほど優れた性能を示す。
  3. Qwen 3 Coder Next は、コーディング専門として全体で7位(8.45)。9Bを除くすべての汎用モデルよりも下。Go の並行性(9.09 対 9.77 の 122B-A10B)、分散ロック(9.14 対 9.74 の 397B-A17B)、SQL 最適化(9.38 対 9.55 の 397B-A17B)では汎用モデルに敗れた。

効率データ(この情報を見る r/LocalLLM 観客の方へ:

Model Avg Time (s) Score/sec Avg Score
Qwen 3 Coder Next 16.9 0.87 8.45
Qwen 3.5 35B-A3B 25.3 0.54 9.20
Qwen 3.5 122B-A10B 33.1 0.52 9.30
Qwen 3.5 397B-A17B 51.0 0.36 9.40
Qwen 3 32B 96.7 0.31 9.63
Qwen 3.5 9B 39.1 0.26 8.19
Qwen 3.5 27B 83.2 0.22 9.11
Qwen 3 8B 156.1 0.15 8.69

Sweet spot: 35B-A3B at 0.54 pts/sec. Fastest: Coder Next at 0.87 but 7th in quality. The quality leader (32B) takes 97 seconds average, which rules it out for anything interactive.

What I do not know and want to be honest about:

Only 58.5% of judgments were valid (412 of 704). The 41.5% failure rate is a data quality problem. I checked whether invalid judgments would flip the order by simulating recovery with the strict-judge average. The top 2 positions held, but ranks 3-5 are within the noise margin.

The judge pool had a clean generational split: every Qwen 3 model judged leniently (avg 9.50+), every Qwen 3.5 model judged strictly (avg 8.25). I do not know if this is a calibration artifact or a genuine difference in how these generations evaluate quality. It adds noise.

Qwen 3 32B appeared in only 6 of 11 evals (API failures on the others). Its higher average may partly reflect a smaller, easier sample. Caveat accordingly.

Questions:

  1. ローカルでQwen 3 32Bを動かしている方へ:経験上、3.5モデルを一貫して上回っていますか?それともAPIルーティングのアーティファクトですか?
  2. 消費者向けGPUで 35B-A3B を動かしている人はいますか?3Bの有効パラメータであれば、3090/4090 で高速で動作するはずです。どのスループットを得ていますか?
  3. dense 対 MoE の結果は興味深い。難解な多段推論では dense 32B がすべての MoE モデルを上回った。これは MoE のルーティングが新しい推論チェーンに適切なエキスパートを選択しないせいなのか、それとも Qwen 3 の訓練データが単により良いのか?
  4. コード生成の専門モデルがコードで一般モデルに敗れる:他の“coder”ブランドのモデルでもこの傾向を見た人はいますか?

すべての11回の評価、各モデルの応答、すべての判断の生データ: github.com/themultivac/multivac-evaluation

分析を含む解説: open.substack.com/pub/themultivac/p/qwen-3-32b-outscored-every-qwen-35

submitted by /u/Silver_Raspberry_811
[リンク] [コメント]