フィードバック重視:1〜3Bコード生成でパイプライン構造より実行フィードバックが重要な理由
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 研究では、1〜3Bの小型言語モデルをコード生成パイプラインに組み合わせたときに性能が伸びるかを検証し、パイプラインの複雑さよりも実行フィードバックの役割に焦点を当てている。
- HumanEval(164問)とサニタイズ済みMBPP(427問)の結果(いずれも単一ラップトップでローカル推論)では、実行フィードバック付きの自己リファインが両ベンチマークで4標準偏差以上の大幅な改善を示した。
- 改善のメカニズムは限定的で、リファインはNameErrorやSyntaxErrorといった実行時エラーを多く修正できる一方、AssertionErrorのような論理エラーはほとんど修正できない。
- 試したモデル群の範囲では、ジェネレータのアイデンティティよりもリファイナの能力が重要であり(例:1.5Bジェネレータ+3Bリファイナは3B単独モデルに匹敵)、さらに早期終了が不可欠で、反復を増やすと全体がマイナスになり得る。
- NEATに着想した進化的探索による構造探索の範囲では、追加のパイプライントポロジーよりも実行フィードバックが合成の有無を左右すると結論づけており、またテキストのみの(実行フィードバックなし)パイプラインでは同規模の伸びは見られなかった。




