JURY-RL：投票で候補を提案し、検証で報酬を処理するラベル不要型RLVR

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ラベル付けや報酬仕様の作成コストを抑えつつ、LLMの推論における強化学習 with 検証可能報酬（RLVR）を行うためのラベル不要フレームワーク「JURY-RL」を提案する。
JURY-RLは「答えの提案」と「報酬の処理」を分離し、複数ロールアウトの多数決（複数票）で候補を提案した後、形式的検証器がその候補に正の報酬を与えてよいかを判定する。
検証が結論できない場合はResZero（Residual-Zero）に切り替え、検証不能な多数決の提案を破棄し、残差（residual）の答えに対してゼロ平均かつ分散を保つ報酬信号を再配分する。
数学データで学習した複数のバックボーンモデルで、JURY-RLは数学推論ベンチマークにおいて他のラベル不要ベースラインを一貫して上回り、コード生成や一般ベンチマークにも競争力ある形で転移する。
pass@1は教師ありの正解学習に匹敵する一方、高いpass@kと応答多様性の向上により、より良い汎化が示される。