Uniform-Correct Policy Optimization:RLVRの多様性への無関心を打ち破る

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、GRPOのようなRLVR手法がPass@1は伸びる一方でPass@Kが低下しやすい理由を、目的関数が正解候補の確率質量の配分に鈍感であることに求めて説明しています。
  • それに加え、確率が限られた少数の正解出力に集中して、他の正解が抑制される「多様性崩壊」を、確率論的な学習ダイナミクスと合わせてメカニズムとして形式化します。
  • 頑健性とエントロピー正則化に基づく2つの観点から、正解集合内で確率を一様に配分するUniform-Correct Policyを、唯一の最適解として特徴づけます。
  • 解析に動機づけられ、UCPO(Uniform-Correct Policy Optimization)としてGRPOを改良し、正解分布に対する条件付き一様性ペナルティで、過小評価された正解への勾配信号を再配分します。
  • 3つのモデル規模(1.5B〜7B)と5つの数学的推論ベンチマークで、UCPOはPass@Kと多様性を改善しつつPass@1を競争力のある水準に保ち、AIME24でPass@64あたり最大+10%の絶対改善や、正解集合内の方程式レベル多様性で最大45%の向上を報告しています(コードはGitHub公開)。