遅延・停滞・崩壊:RLVRにおける体系的な検証エラーが与える影響の評価

arXiv cs.LG / 2026/5/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、外部検証器により正解が検証される報酬を用いる強化学習(RLVR)において、検証エラーがRLVRの学習に与える影響を検討します。
  • 整数演算タスクの制御実験により、体系的な「偽陰性」は主にランダムノイズと同様の効果をもたらし、学習を遅らせる一方で最終性能を大きく損なわないことが示されます。
  • これに対し、体系的な「偽陽性」は、学習が最適に至らず停滞する状態から性能の崩壊まで、幅広い挙動不全を引き起こし得ます。
  • 観測された結果は検証器の全体的なエラー率ではなく、検証器が導入するエラーの具体的なパターンに左右されるため、事前の対策が難しいことが重要な点です。
  • 著者らは、検証エラーを「ランダムで害が小さい」とみなす従来の結論は不十分であり、検証器の品質はサンプル単位の誤り率だけでは捉えるべきでないと結論づけています。

要旨: 強化学習による検証可能な報酬 (RLVR) は、大規模言語モデル (LLM) の推論能力を高めるための強力なアプローチとして注目を集めています。RLVR は検証可能な正解(グラウンドトゥルース)を伴うタスク向けに設計されていますが、現実の検証器(例:静的コードチェッカー)は報酬信号に誤りを混入させ得ます。これまでの先行分析では、こうした誤りを概ねランダムでサンプル間で独立しているものとして扱い、その結果、誤りは最終的な性能への影響が限定的で訓練を遅らせるだけだと結論づけられてきました。しかし、実際の検証器は系統的な誤りを示す傾向があります。これは、構造的に不正な報酬信号から、モデルが望ましくない一貫した挙動を学習してしまうリスクを生みます。本研究では、このような系統的な検証誤りが RLVR に与える影響を調べます。算術タスクに対する制御された実験を通じて、系統的な偽陰性がランダムノイズと同様の効果をもたらすことを示します。一方で、系統的な偽陽性は、最適に達しない停滞(プレートー)から性能崩壊まで、幅広い挙動を引き起こし得ます。重要なのは、これらの結果が導入された誤りの「全体の誤り率」ではなく、「導入される誤りの具体的なパターン」によって決まる点であり、事前の対策(事前軽減)が難しいことです。以上の結果は、先行研究の結論とは対照的に、現実的な検証誤りが RLVR の結果に決定的な影響を与え得ること、そして検証器の品質はサンプル単位の誤り率だけでは理解できないことを示しています。