暗黙の報酬を解き放つ:分布レベル最適化のための接頭辞価値学習

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、軌跡レベルの結果ラベルから、最終的な正しさを推定する接頭辞条件付き価値関数を学習することでプロセス報酬モデルを改善する、暗黙の接頭辞価値報酬モデル(IPVRM)を提案する。
  • 先行する暗黙報酬アプローチにおける、学習時と推論時の不一致を扱う。これらはトークン単位のクレジット割当を弱くしか特定できず、誤ったカリブレーションによって不正な継続を強化してしまう可能性がある。
  • IPVRMは、時間差分(TD)の差分を用いてトークン/ステップの信号を導出し、ProcessBenchにおけるステップ検証F1で大きな改善が得られたと報告している。
  • IPVRMのカリブレーションされた接頭辞価値に基づき、本論文はDistribution-Level RL(DistRL)を提案する。ここでは、サンプリングされたトークンと、高確率の候補トークンの双方に対してTD優位(TD advantage)を用い、追加のロールアウトなしで密な反事実更新を可能にする。
  • DistRLは、カリブレーションされていない暗黙報酬を用いる場合には限定的な改善にとどまるが、IPVRMと組み合わせることで下流の推論性能を一貫して改善し、報酬のカリブレーションの重要性が示される。