以前の投稿への短い追記です。そこで、同じ9BのQwenモデルの周りの足場(スキャフォールド)を変更すると、ベンチマーク性能が19.11%から45.56%に移動することを示しました:
https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LV
ここでのフィードバックを受けて、Qwen3.6 35Bでlittle-coderを試してみました。
すると、成功率78.7%でパブリックのPolyglotトップ10に入るようになり、このベンチマークにおいて実際に市場の最良モデルたちと競り合えるレベルになりました!
この時点で、クラウドモデルに対する性能ギャップの一部はハーネス(運用環境)側のミスマッチである可能性がますます高いと感じています。別のクラスのモデル向けに作られたスキャフォールドの中で、ローカルのコーディングモデルをテストしていたのかもしれません。
次はTerminal Bench、その次は研究向けの能力としてGAIAになる見込みです。ぜひここであなたのフィードバックを聞かせてください!
編集: pi dev の統合が進行中です!
詳細な書き込み: https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agent
GitHub: https://github.com/itayinbarr/little-coder
完全なベンチマーク結果: https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.md
[リンク] [コメント]
