AI Navigate

EvolveCoder: コード強化学習のための敵対的検証によるテストケースの進化

arXiv cs.CL / 2026/3/16

📰 ニュースModels & Research

要点

  • 本稿は、候補解の実行挙動に基づいてテストケースを改良し、難易度と識別力を高める、解法条件付きの敵対的検証フレームワークを提案する。
  • それは、敵対的なテストケースの進化を複数回繰り返して構築された、大規模なコード強化学習データセットである EvolveCoder-22k を紹介する。
  • 経験的分析は、反復的な洗練が検証信号を強化することを示し、pass@1 が 43.80 から 31.22 へ低下した。
  • EvolveCoder-22k 上での強化学習は安定した最適化と一貫した性能向上をもたらし、4つの下流ベンチマークにわたってQwen3-4Bを平均4.2ポイント改善し、強力な4Bスケールのベースラインを上回る。
  • 結果は、コード生成におけるスケーラブルで効果的な強化学習のためには、敵対的かつ解法条件付きの検証が重要であることを強調している。

要旨: 検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルにおけるコード生成を改善する有望なアプローチですが、既存のコーディングRLデータセットにおける検証信号は弱く静的であることがその有効性を制限しています。
本論文では、解法条件付けと敵対的検証フレームワークを提案し、候補解の実行挙動に基づいてテストケースを反復的に洗練させ、難易度を上げ、識別力を高め、冗長性を減らすことを目的とします。
このフレームワークに基づき、複数回の敵対的なテストケース進化を通じて構築された大規模なコーディング強化学習データセットであるEvolveCoder-22kを導入します。
経験的分析は、反復的な洗練が検証を著しく強化することを示し、pass@1が43.80から31.22へ低下しました。
EvolveCoder-22k上の強化学習は安定した最適化と一貫した性能向上をもたらし、4つのダウンストリームベンチマーク全体でQwen3-4Bを平均4.2ポイント改善し、強力な4Bスケールのベースラインを上回ります。
我々の結果は、コード生成における効果的かつスケーラブルな強化学習のためには、敵対的で解法条件付きの検証の重要性を強調します。