JURY-RL:投票で候補を提案し、検証で報酬を処理するラベル不要型RLVR
arXiv cs.AI / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ラベル付けや報酬仕様の作成コストを抑えつつ、LLMの推論における強化学習 with 検証可能報酬(RLVR)を行うためのラベル不要フレームワーク「JURY-RL」を提案する。
- JURY-RLは「答えの提案」と「報酬の処理」を分離し、複数ロールアウトの多数決(複数票)で候補を提案した後、形式的検証器がその候補に正の報酬を与えてよいかを判定する。
- 検証が結論できない場合はResZero(Residual-Zero)に切り替え、検証不能な多数決の提案を破棄し、残差(residual)の答えに対してゼロ平均かつ分散を保つ報酬信号を再配分する。
- 数学データで学習した複数のバックボーンモデルで、JURY-RLは数学推論ベンチマークにおいて他のラベル不要ベースラインを一貫して上回り、コード生成や一般ベンチマークにも競争力ある形で転移する。
- pass@1は教師ありの正解学習に匹敵する一方、高いpass@kと応答多様性の向上により、より良い汎化が示される。




