Qwen3.6-35Bは「適切なエージェント」と組み合わせるとクラウドモデル級に競争力を得る

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、Qwenモデルの「スキャフォールド(枠組み)」を変えるだけでベンチマーク結果が大きく変わると報告しており、先行例として約9BのQwenで19.11%から45.56%へ改善したと述べています。
  • その手法をQwen3.6 35Bに「little-coder」を適用したところ、Polyglotの公開トップ10入りを果たし、当該ベンチマークで成功率78.7%を記録したとしています。
  • ポストでは、クラウドモデルとの差の一部は基盤モデルの性能差ではなく、ハーネス(評価環境)や統合の不一致によって生じている可能性が高いと主張しています。
  • 次の評価としてTerminal Bench、その後に研究向け能力のGAIAを予定しており、さらに「pi dev」統合も進行中だとしています。
  • 詳細な解説とベンチマーク情報へのリンク(SubstackおよびGitHub)が提示されています。

以前の投稿への短い追記です。そこで、同じ9BのQwenモデルの周りの足場(スキャフォールド)を変更すると、ベンチマーク性能が19.11%から45.56%に移動することを示しました:

https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LV

ここでのフィードバックを受けて、Qwen3.6 35Bでlittle-coderを試してみました。

すると、成功率78.7%でパブリックのPolyglotトップ10に入るようになり、このベンチマークにおいて実際に市場の最良モデルたちと競り合えるレベルになりました!

この時点で、クラウドモデルに対する性能ギャップの一部はハーネス(運用環境)側のミスマッチである可能性がますます高いと感じています。別のクラスのモデル向けに作られたスキャフォールドの中で、ローカルのコーディングモデルをテストしていたのかもしれません。

次はTerminal Bench、その次は研究向けの能力としてGAIAになる見込みです。ぜひここであなたのフィードバックを聞かせてください!

編集: pi dev の統合が進行中です!

詳細な書き込み: https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agent

GitHub: https://github.com/itayinbarr/little-coder

完全なベンチマーク結果: https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.md

により投稿者 /u/Creative-Regular6799
[リンク] [コメント]