Qwen 3 8Bは、サイズが4倍のモデルを相手にした難易度の高い評価13件のうち6件をトップに、10種のSLMに対するブラインド・ピア評価

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 十三件のブラインド・ピア評価が、Goの並行処理バグ、SQL最適化、ベイズ医療診断、Simpsonのパラドックスなどを含む最前線レベルの問題に対して、10種類の小型言語モデルにまたがる13件実施され、難易度はGPT-5.4およびClaude Opus 4.6に匹敵する水準だった。
  • Qwen 3 8Bは、13件の評価のうち6件を勝ち取り、13件中12件でトップ3入り、平均スコアは9.40で、プール内のより大きいモデルを上回った。
  • コードタスクでは、Qwen 3 8BがGoの並行デバッグ(9.65)と分散ロック解析(9.33)を牽引し、SQL最適化(9.66)で首位と同点となった。
  • Gemma 3 27BやKimi K2.5など他のモデルは著しく劣っており、8Bモデルがこれらの難問で一部の大規模モデルを上回ることができることを示している。
  • 結果は、小型モデルが前線レベルの課題で大型モデルと競える可能性があることを示唆しており、今後のモデル開発におけるスケーリング戦略やベンチマークに影響を及ぼす可能性がある。

今日は13件のブラインド・ピア評価を実施し、10の小規模言語モデルを相手に難易度の高い最前線レベルの問題をテストしました。要約や雑学ではありません。分散ロックのデバッグ、Go の並行性バグ、SQL の最適化、ベイズ統計に基づく医療診断、シンプソンのパラドックス、アローの投票定理、生存者バイアスの分析です。GPT-5.4と Claude Opus 4.6 に対しても同じ難易度です。

結果は私を驚かせました。8Bモデルが勝ち続けたので、数値を2回計算しました。

13件の評価を横断した集計結果

モデル パラメータ数 1位獲得回数 トップ3入り 平均スコア 最悪の成績
Qwen 3 8B 8B 6 12/13 9.40 5位
Gemma 3 27B 27B 3 11/13 9.33 7位
Kimi K2.5 32B/1T MoE 3 5/13 8.78 9位
Qwen 3 32B 32B 2 5/13 8.40 10位 (1.00)
Phi-4 14B 14B 0 3/13 8.91 10位
Devstral Small 24B 0 1/13 8.82 8位
Granite 4.0 Micro Micro 0 1/13 8.61 9位
Llama 4 Scout 17B/109B MoE 0 1/13 8.57 10位
Mistral Nemo 12B 12B 0 0/13 8.43 10位
Llama 3.1 8B 8B 0 0/13 7.51 10位

見出しの結論:Qwen 3 8B は、パラメータ数が4倍のモデルを含むプールの中で、最も多くの評価で勝利しました。

コード課題では、Qwen 3 8B は Go の並行性デバッグで1位(9.65)、分散ロック解析で1位(9.33)、SQL最適化で同率1位(9.66)を獲得しました。推論課題では、シンプソンのパラドックスで1位(9.51)、投資意思決定理論で1位(9.63)、ベイズ診断で2位(9.53)となりました。

Qwen 32B の崩壊。 分散ロックデバッグ課題(EVAL-20260315-043330)では、Qwen 3 32B は10点満点中1.00を記録しました。ほかのすべてのモデルは5.5を超えるスコアでした。生の応答を確認したところ、32B は不正または切り捨てられた出力を返したようです。同一ファミリの同じAPI提供元、同じプロンプト。8B は同一の課題で9.33を得ました。OpenRouter のルーティング問題か、32B の量子化アーティファクトか、あるいは真の障害モードかはまだ分かりません。これを指摘しますが、1つのデータポイントから結論を出すつもりはありません。

Kimi K2.5 はダークホースです。 3つの評価で勝ちました。502 デバッグ課題(9.57)、アローの投票定理(9.18)、生存者バイアス(9.63)を含みます。技術的には32Bアクティブ / 1T MoEモデルで、これを\"SLM\"と呼ぶのは大袈裟です。しかし他と同様にOpenRouterを通過し、実用的なデバッグ課題での性能は著しく高かった。

表の端にも物語がある。 Llama 3.1 8B は、13 回の評価のうち10 回で最下位または最下位近くの順位でした。古いモデルで難易度の高い課題ですが、同じパラメータ数の Qwen 3 8B とのギャップは大きく、平均は 7.51 対 9.40。アーキテクチャと学習データの重要性は、パラメータ数より大きい。

方法論

これは The Multivac、ブラインド・ピア評価システムです。10モデルが同じ質問に回答します。各モデルはその後、すべての回答を評価します(評価ごとに100件の判断、自己判断は除く)。モデルはどの回答がどのモデルからのものかを知りません。ランキングは仲間の合意から算出され、単一の評価者からではありません。

正直に開示したい実際の制約点:

  1. AI が AI を審査することには循環性の問題があります。これらのスコアはピアの合意を測るもので、真の正解を測るものではありません。相関を測る人間ベースライン研究に取り組んでいます。
  2. コード課題については、生成されたコードをまだテストスイートで実行していません。今後実装します。現時点では、ピアのスコアは他のモデルが判断したコード品質、推論の正確さ、エッジケースの処理を評価します。
  3. これは1日で行われた13件の評価の1回分です。これだけでキャリアの判断を下すべきではありません。しかし、実際の信号です。
  4. 一部のモデル(Qwen 32B、Kimi K2.5)は、複数の推論評価で疑わしくも同一のスコア(8.25)を返しました。これは切り捨てられたまたは定型化された応答を示している可能性があります。調査中です。

完全な個別評価結果(完全なランキング・生データ判定・モデル応答を含む):

各フォルダには results.json(完全な判断行列)と report.md(すべてのモデル応答を含む人間が読めるレポート)があります。ダウンロードして、方法論を検証・批評してください。それが改善の要素です。

コミュニティからの正直な意見を本当に求めている質問:

  1. 同じファミリの同じタスクで、Qwen 3 8B と Qwen 3 32B の間に顕著な乖離があります。32B が特定のタスクタイプで8Bを下回るのを見た人は他にもいますか? これは OpenRouter を通じた既知の量子化の問題ですか?
  2. これらのモデルをローカルで動かしている方へ: ランキングはあなたの経験と一致しますか? 特に Gemma 3 27B が 11/13 の評価でトップ3入りした点。推論としては妥当だと感じますが、コード課題についての確認をしたいです。
  3. 次にコード評価のプログラム的テストスイートを追加します。自動コード正確性チェックにはどのフレームワークを使っていますか? サンドボックス実行を前提に pytest を考えています。
  4. ピア評価の方法論は AI が AI を評価するという点で批判を受けています(当然です)。Prolific で人間のベースライン研究を設計しています。人間の評価研究を運用した経験がある方、どのサンプルサイズが高い評価者間の一致を得られましたか?

完全な方法論とすべての履歴データ: themultivac.com

submitted by /u/Silver_Raspberry_811
[リンク] [コメント]