過去1週間、私は単純な疑問をテストしていました:
小規模なローカルモデルは、コーディングエージェントの中だとしばしば弱く見えます。しかし、それが実際にどれくらいモデルの弱さによるものなのか、どれくらい足場(スキャフォールド)の不一致によるものなのかは、どの程度なのでしょうか?
そこで私はモデルを固定し、変更したのは足場だけにしました。
両条件で同じQwen3.5-9B Q4の重み。
同じAider Polyglotベンチマーク。
全225エクササイズ。
結果:
- vanilla Aider: 19.11%
- little-coder: 45.56% mean pass@2(2回の完全実行にまたがって)
little-coderは新しいモデルではありません。これは、約10B規模のローカルモデルの行動プロファイルに合わせて私が適応した足場です。具体的には、推論の予算上限、既存ファイルへの上書きを拒否するWriteガード、明示的なワークスペース探索、そして巨大な静的な事前プロンプト1つではなく、小さなターンごとのスキル注入です。
これは学会論文ではありません。きちんとした論文なら、まだやりたいことが明らかにあります:
- さらなる追試
- コンポーネントのアブレーション
- もっと多様なモデルファミリ
- もしかすると第2のベンチマーク
ただし効果量は十分に大きかったので、今共有する価値があると思いました(残念ながら、上記を行う時間はありません)。
私の得た結論は、かなり限定的です:
この規模では、コーディングエージェントのベンチマーク結果は、単にモデル重みの性質だけではありません。足場とモデルの適合性(fit)の性質でもあります。
私は、10B未満のローカルモデルが、コーディングエージェント評価で早すぎる段階で見切られてしまったのではないかと疑っています。
完全な書き起こし、コード、数値はこちら: https://itayinbarr.substack.com/p/honey-i-shrunk-the-coding-agent
再現の試み、失敗ケース、または、これが一般化しないと思う理由についてとても興味があります。
[link] [comments]



