CollabCoder:協調的意思決定によるプラン・コードの共進化で効率的なコード生成を実現

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のコード生成システムが持つ硬直的な計画、分断された実行、高い計算コストといった制限に対処するための、Plan-Code Co-Evolution型マルチエージェントフレームワーク「CollabCoder」を提案する。
  • CollabCoderは、デバッグ過程において「どのコンポーネントを実行するか」を動的に選択するために、計画モジュールとコードモジュールの間を調整する協調的意思決定メカニズムを導入する。
  • 定評のあるベンチマークでの実験により、本フレームワークがタスクを通じて一貫してコード品質と頑健性の両方を向上させることが示される。
  • 結果は、計算オーバーヘッドを削減しつつ、現在の最先端手法と同等、またはそれを上回る性能を示し、特に難易度の高いベンチマークで効率面の利点が大きいことを示している。
  • より難しいLiveCodeBenchおよびxCodeEvalにおいて、CollabCoderは強力なベースラインに対して性能を11〜20%改善し、1回の実行あたりのAPI呼び出しを平均4〜10回削減する。

要旨: 自動コード生成は、ソフトウェア工学において依然として根強い課題である。従来のマルチエージェントフレームワークは、静的な計画に制約されがちであり、また分離された実行、高い計算オーバーヘッド、複雑なタスクへの適応力の限定といった問題を抱えている。本論文では、動的なマルチエージェントによる協調を通じてコード生成を改善する、新たなPlan-Code Co-EvolutionフレームワークであるCollabCoderを提案する。中核となる発想は、デバッグ処理のためにどのモジュールを実行すべきかを決定するために、計画モジュールとコードモジュールの間で協調的な意思決定プロセスを設計することである。広く用いられているベンチマークに対する大規模な実験により、CollabCoderがタスク全体で一貫してコード品質と頑健性を向上させることを示す。重要な点として、CollabCoderは計算オーバーヘッドを削減しつつ、現在の最先端手法と同等、あるいはそれを上回る性能を達成しており、効率化の効果はベンチマークの難易度が上がるほどより顕著になる。より困難なLiveCodeBenchおよびxCodeEvalベンチマークにおいては、我々の手法は強力なベースラインに対して性能を11-20%改善し、さらに1実行あたりのAPI呼び出し回数を平均4-10回削減する。