EvolveCoder: コード強化学習のための敵対的検証によるテストケースの進化

arXiv cs.CL / 2026/3/16

📰 ニュースModels & Research

共有:

要点

本稿は、候補解の実行挙動に基づいてテストケースを改良し、難易度と識別力を高める、解法条件付きの敵対的検証フレームワークを提案する。
それは、敵対的なテストケースの進化を複数回繰り返して構築された、大規模なコード強化学習データセットである EvolveCoder-22k を紹介する。
経験的分析は、反復的な洗練が検証信号を強化することを示し、pass@1 が 43.80 から 31.22 へ低下した。
EvolveCoder-22k 上での強化学習は安定した最適化と一貫した性能向上をもたらし、4つの下流ベンチマークにわたってQwen3-4Bを平均4.2ポイント改善し、強力な4Bスケールのベースラインを上回る。
結果は、コード生成におけるスケーラブルで効果的な強化学習のためには、敵対的かつ解法条件付きの検証が重要であることを強調している。

要旨: 検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデルにおけるコード生成を改善する有望なアプローチですが、既存のコーディングRLデータセットにおける検証信号は弱く静的であることがその有効性を制限しています。
本論文では、解法条件付けと敵対的検証フレームワークを提案し、候補解の実行挙動に基づいてテストケースを反復的に洗練させ、難易度を上げ、識別力を高め、冗長性を減らすことを目的とします。
このフレームワークに基づき、複数回の敵対的なテストケース進化を通じて構築された大規模なコーディング強化学習データセットであるEvolveCoder-22kを導入します。
経験的分析は、反復的な洗練が検証を著しく強化することを示し、pass@1が43.80から31.22へ低下しました。
EvolveCoder-22k上の強化学習は安定した最適化と一貫した性能向上をもたらし、4つのダウンストリームベンチマーク全体でQwen3-4Bを平均4.2ポイント改善し、強力な4Bスケールのベースラインを上回ります。
我々の結果は、コード生成における効果的かつスケーラブルな強化学習のためには、敵対的で解法条件付きの検証の重要性を強調します。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

EvolveCoder: コード強化学習のための敵対的検証によるテストケースの進化

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer