JURY-RL:投票で候補を提案し、検証で報酬を処理するラベル不要型RLVR

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ラベル付けや報酬仕様の作成コストを抑えつつ、LLMの推論における強化学習 with 検証可能報酬(RLVR)を行うためのラベル不要フレームワーク「JURY-RL」を提案する。
  • JURY-RLは「答えの提案」と「報酬の処理」を分離し、複数ロールアウトの多数決(複数票)で候補を提案した後、形式的検証器がその候補に正の報酬を与えてよいかを判定する。
  • 検証が結論できない場合はResZero(Residual-Zero)に切り替え、検証不能な多数決の提案を破棄し、残差(residual)の答えに対してゼロ平均かつ分散を保つ報酬信号を再配分する。
  • 数学データで学習した複数のバックボーンモデルで、JURY-RLは数学推論ベンチマークにおいて他のラベル不要ベースラインを一貫して上回り、コード生成や一般ベンチマークにも競争力ある形で転移する。
  • pass@1は教師ありの正解学習に匹敵する一方、高いpass@kと応答多様性の向上により、より良い汎化が示される。