MARS$^2$：コード生成のための強化学習でマルチエージェント・ツリーサーチをスケールする

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この論文は、コード生成における強化学習が探索の軌道多様性の不足により性能の上限に到達しやすいと主張している。
構造化された探索を導入するsearch-enhanced RLは有効だが、単一エージェントの方策事前分布に制約される点があると整理している。
MARS$^2$は、複数の独立に最適化されたエージェントが共有された木構造の探索環境の中で協調する統一フレームワークを提案する。
学習を支えるために、木に整合するreward shapingに基づく経路レベルのgroup advantageを導入し、複雑な探索経路でのクレジット割り当てを改善する。
コード生成のベンチマーク実験では、MARS$^2$が異なるモデル組み合わせや学習設定で一貫して性能を向上させることを示しており、コードも公開されている。

\textbf{MARS $^2$ }（Multi-Agent Reinforced Tree-Search Scaling）を提案します。これは、共有された木構造の探索環境の中で、複数の独立して最適化されたエージェントが協調する統一型RLフレームワークです。MARS $^2$ は探索木を学習可能なマルチエージェント相互作用環境としてモデル化し、異種のエージェントが共有された探索トポロジ上で協調しながら候補解を生成・洗練できるようにします。効果的な学習を支えるために、木整合性のある報酬シェーピングに基づくパス・レベルの集団的優位（group advantage）定式化を導入し、複雑な探索軌跡にまたがる効果的なクレジット割当を促進します。コード生成ベンチマークでの実験により、MARS $^2$ は多様なモデルの組合せや学習設定のいずれにおいても一貫して性能を向上させることが示され、強化学習を改善するためにマルチエージェント協調と木探索を結びつけることの有効性が実証されます。私たちのコードは https://github.com/TsinghuaC3I/MARTI で公開されています。