割引ベータ—ベルヌーイ報酬推定による検証可能報酬を用いたサンプル効率の高い強化学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検証可能報酬を用いた強化学習(RLVR)のために、報酬を政策誘導分布からの標本としてモデル化し、アドバンテージを分布推定問題として定式化することで、Discounted Beta--Bernoulli (DBB) 報酬推定法を提案する。
  • DBBは履歴報酬統計を用いて非定常分布に対処し、無偏性を犠牲にして分散を低減・安定化させ、分散崩壊を回避し、標準の点推定より平均二乗誤差を小さくする。
  • 実験結果は、6つの分布内ベンチマークと3つの分布外ベンチマークで、DBBを組み込んだGRPOが従来のGRPOを上回ることを示し、1.7Bモデルと8Bモデルについて、それぞれ分布内での平均Acc@8が3.22/2.42ポイント、分布外での平均Acc@8が12.49/6.92ポイント改善され、追加の計算リソースやメモリを要さず。
  • このアプローチは、グループベースの RLVR におけるサンプル非効率性を対象とし、より信頼性の高い報酬推定を通じて大規模言語モデルの推論能力の向上を約束する。

要約: 検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるための事後学習パラダイムとして効果的に台頭してきました。 しかし、既存のグループベースの RLVR 手法はしばしば深刻なサンプル非効率性に悩まされます。 この非効率性は、少数のロールアウトからの報酬の点推定に依存することに起因し、高い推定分散、分散の崩壊、生成された応答の効果的でない活用につながります。 本研究では、報酬をポリシー誘導分布から抽出されたサンプルとしてモデル化し、アドバンテージ計算を有限データから報酬分布を推定する問題として位置づけることにより、 RLVR を統計的推定の視点から再定式化します。 この見解に基づき、非定常分布に対して過去の報酬統計を活用する Discounted Beta--Bernoulli (DBB) 報酬推定を提案します。 バイアスがあるものの、得られる推定量は分散が小さく安定しており、理論的には推定分散の崩壊を回避し、標準的な点推定よりも平均二乗誤差を小さく達成します。 同分布の推論ベンチマーク6件と異分布の推論ベンチマーク3件にわたる幅広い実験は、DBBを組み込んだGRPOが素朴なGRPOを一貫して上回ることを示しています。1.7Bモデルおよび8Bモデルでは、それぞれ同分布で平均Acc@8を3.22ポイントと2.42ポイント、異分布で12.49ポイントと6.92ポイント改善しており、追加の計算コストやメモリ使用は発生しません。