コード生成における強化学習の「合格率報酬」を探る
arXiv cs.LG / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、コード生成におけるcritic-free強化学習で、バイナリ報酬(全テスト合格)がスパースになりがちな問題に対し、合格率(テストケース通過率)を代理報酬として用いる手法を検討する。
- GRPOやRLOOのようなcritic-free RLアルゴリズムと複数の基盤モデルにわたる制御実験の結果、合格率報酬は厳密には最終的な性能をバイナリ報酬より一貫して改善できないことが示される。
- 合格率報酬は学習シグナルを密にする一方で、生成確率の質量を「全テスト合格」に向けて確実に移動させる勾配更新が常に起きるわけではない。
- この不一致は、合格率が「完全な正しさ」の進捗として誤って校正された代理指標であり、同一グループ内の部分合格解が相反する勾配方向を生み、相殺され得ることに起因すると分析される。
- 以上より、critic-free RLにおいて合格率報酬だけではコード生成を改善するのに不十分であり、完全な正しさと最適化目的の整合性をより高める報酬設計が必要だと結論づける。



