Qwen3.6-27B と Coder-Next の比較

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿では、RTX PRO 6000 上で Qwen3.6-27B(“thinking”有効/無効)と Coder-Next を横並びで比較し、結論として勝者はタスク次第だと述べています。
  • N=10 の複数のテストセルにおいては、Coder-Next と Qwen3.6-27B の全体的な性能が非常に近く、Wilson の信頼区間が重なるため統計的に同程度(引き分け)と説明されています。
  • Qwen3.6-27B の “thinking” を無効化すると一貫性が向上したとされ、違いは主に推論プローズの冗長さであって、出力の意思決定そのものは大きくは変わらないと報告されています。
  • 3.6-35B-A3B は多くのタスクで頻繁に失敗し、以後の比較継続ではなく失敗パターンの証拠として扱われています。
  • 最大の対照として、ライブな市場調査タスクでは Qwen3.6-27B が Coder-Next を大きく上回った一方、Coder-Next は上限付きのビジネスメモやドキュメント合成タスクで、他より大幅に低いコストで安定して成果を出したとされています。
  • 研究の動機は、従来のベンチマークが「ゲーム化」されているのではないかという懸念から、勝てる課題と失敗しやすい課題をあえて与えてストレステストしたことにあります。
Qwen3.6-27B vs Coder-Next

この2つのモデルのうち、どちらが明らかに優れているか決め打ちするために、2台のRTX PRO 6000 Blackwellで並列計算を約20時間ぶん投入しました。人生の多くのことと同じで、結局何千トークンも何kWhも費やした後の答えは「場合による」でした。

これらのモデルを合算すると、実は互いにかなりうまく噛み合っています。広範なテストやシナリオにおいて全体的なスコアは同程度で、当たるもの・外すもの、失敗するもの・成功するものがそれぞれ違います。私がN=10で4つのセル回した結果では、Coder-Nextが25/40出荷、27B-thinkingが30/40——統計的に同率で、Wilson CIが重なっていました。

ぱっと見で、それなら納得もできます。27Bはより新しい世代の高密度モデルで、考えること(thinking)が強みです。Coder-Nextは使えるパラメータが概ね3倍ありますが、動作中は一度にアクティブになるのは3Bだけです。何をやりたいか次第で、どちらも正解になり得ます。

面白いことに、thinkingを無効にした27Bが、作業の「出荷」面で最も一貫していました——N=10で12セル全体グリッドにおける出荷率は95.8%(Wilson 95% [90.5%, 98.2%])。これは27B-thinkingと同じモデル重みで、単に`--no-think`にしただけです。両方の出荷セルに対して、サイドバイサイドで手作業の採点をすると、有意義な出力は維持されていました。違いは、推論の文章の冗長さであって、出力の判断ではありません。「思考トレースをループ基盤にする」仕組みは本物でした。ドキュメント合成における、記録されたワード切り詰めループがno-thinkでは半減しました(4/10 → 2/10)。

3.6-35B-A3Bはタスク投入のたびにほとんど毎回うまくいかず、他の2つと比較し続ける価値がないように見えたので、そこまでで打ち切りました。フォルダは失敗モードの証拠として残してあります。

数日間かけて、かなり奇抜なものをこれらのモデルに投げ続けました。その間、私の2台のGPUは常に熱く、非常に忙しい状態でした。始めた理由は主に、より良い言い方が思いつかないのですが、従来のベンチマークが「ゲーム化」されているように感じたからです。なので、こいつらをその辺に放り投げてボコり、何が起きるか見てみたかったんです。

勝てるタスクを与えます。ほぼ必ず失敗する運命にあるタスクも与えます。どうやって勝ち、どうやって負けるのか、そしてそれがどう見えるのかを研究します。最も極端な結果は、Coder-Nextがあるライブのマーケットリサーチ課題で0/10だったのに対し、27Bは8/10(Coder-Nextの崩壊についてWilson 95% [0%, 27.8%]、再現可能)。逆に、Coder-Nextは、制約付きのビジネスメモおよびドキュメント合成タスクでは10/10を出し、どちらの27Bバリアントよりも「出荷1回あたりのコスト」が60〜100倍も低かったです。同じモデルでも、「得意」の形がまったく違うんです。

データは大量にあります。見やすいように整理しようとしました。そして今のところ、これはほぼこれら2つのモデルを徹底的に比較する話に尽きます。

ともあれ、私は今眠いです。みなさんの考えを教えてください。質問があればどうぞ。リポジトリは下にあります。気絶しそうにならないときに、もう少し詳しく話します(笑)。

https://github.com/Light-Heart-Labs/MMBT-Messy-Model-Bench-Tests

submitted by /u/Signal_Ad657
[link] [comments]