同じ9BのQwen重み:Aiderで19.1%だが、ローカル小型モデル向けに適応したスキャフォールドで45.6%

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、Qwen3.5-9B Q4の重みを固定したままエージェントのスキャフォールドだけを変更し、小型ローカルのコーディングモデルが弱く見える理由が「モデルの能力」か「スキャフォールドの不整合」かを検証する。
  • 同一のAider Polyglotベンチマーク(225エクササイズ)で、バニラのAiderはpass@2が19.11%だったのに対し、適応したスキャフォールド「little-coder」は45.56%を達成した。
  • 「little-coder」は約10Bローカルモデルの行動特性に合わせて設計され、推論予算の上限、既存ファイルの上書きを拒否するWriteガード、明示的なワークスペース探索、小さなターンごとのスキル注入(巨大な事前プロンプトではなく)などを含む。
  • この記述では、モデル規模がこの程度のとき、コーディングエージェントのベンチマーク結果はモデルの重みだけでなく、スキャフォールドとモデル挙動の適合性にも左右されると主張している。
  • 著者は一般化の検証や失敗ケースの理解のため、再現実験、コンポーネントのアブレーション、より広いベンチマークを求めている。

過去1週間、私は単純な疑問をテストしていました:

小規模なローカルモデルは、コーディングエージェントの中だとしばしば弱く見えます。しかし、それが実際にどれくらいモデルの弱さによるものなのか、どれくらい足場(スキャフォールド)の不一致によるものなのかは、どの程度なのでしょうか?

そこで私はモデルを固定し、変更したのは足場だけにしました。

両条件で同じQwen3.5-9B Q4の重み。

同じAider Polyglotベンチマーク。

全225エクササイズ。

結果:

- vanilla Aider: 19.11%

- little-coder: 45.56% mean pass@2(2回の完全実行にまたがって)

little-coderは新しいモデルではありません。これは、約10B規模のローカルモデルの行動プロファイルに合わせて私が適応した足場です。具体的には、推論の予算上限、既存ファイルへの上書きを拒否するWriteガード、明示的なワークスペース探索、そして巨大な静的な事前プロンプト1つではなく、小さなターンごとのスキル注入です。

これは学会論文ではありません。きちんとした論文なら、まだやりたいことが明らかにあります:

- さらなる追試

- コンポーネントのアブレーション

- もっと多様なモデルファミリ

- もしかすると第2のベンチマーク

ただし効果量は十分に大きかったので、今共有する価値があると思いました(残念ながら、上記を行う時間はありません)。

私の得た結論は、かなり限定的です:

この規模では、コーディングエージェントのベンチマーク結果は、単にモデル重みの性質だけではありません。足場とモデルの適合性(fit)の性質でもあります。

私は、10B未満のローカルモデルが、コーディングエージェント評価で早すぎる段階で見切られてしまったのではないかと疑っています。

完全な書き起こし、コード、数値はこちら: https://itayinbarr.substack.com/p/honey-i-shrunk-the-coding-agent

再現の試み、失敗ケース、または、これが一般化しないと思う理由についてとても興味があります。

submitted by /u/Creative-Regular6799
[link] [comments]