報酬モデルは実は価値関数:Temporally Coherent Reward Modeling

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、RLHFにおける従来の報酬モデルが応答の最終トークンのみを評価するため、途中トークンの豊富な情報が捨てられ、トークン単位の予測がノイズになりがちだと指摘する。
  • 標準的なブラッドリー–テリー損失に2つの正則化項を追加することで、Temporally Coherent Reward Modeling(TCRM)を提案し、各トークン位置の報酬出力を「これまでの応答を条件とした最終報酬の条件付き期待値」として表現できるようにする。
  • これらの正則化項は、モンテカルロおよび時間差(TD)型の価値学習目的に対応づけられ、報酬モデリングの出力をRLの価値関数と直接結び付ける。
  • 実験では、解釈可能なトークンレベルの報酬軌跡が大幅に改善(中間トークンのペアワイズ精度が50%から88.9%へ)しつつ最終トークン精度を維持できたほか、アウトカムのみで学習したモデルでもProcessBenchで44.9%の平均F1を達成している。
  • さらにTCRMはPPOでの報酬/価値の統合を可能にし、ピークGPUメモリを27%削減し、ステップ時間も19%短縮しながらLLM品質は同等という効率向上が報告されている。

要旨: RLHFにおける報酬モデルは、応答の最終トークンのみをスコアするように学習されます。これは、すべての中間位置から得られる豊かな信号を捨て去り、トークン単位の出力がノイズになるモデルを生み出す選択です。我々は、これは取り逃がした機会だと主張します。十分に学習された報酬モデルの任意のトークンにおける出力は、これまでの応答に条件づけた最終報酬の条件付き期待値を表すべきです。我々は、標準的なBradley-Terry損失の上に2つの正則化項を加えることでこの性質を誘導する、Temporally Coherent Reward Modeling(TCRM)を提案します。最小化解は条件付き期待値に等しいことが理論的に証明されます。これらの正則化項はモンテカルロおよびTD価値学習の目的に対応し、RLの価値関数との直接的な関係を確立します。TCRMは、アーキテクチャ、データ、推論に対する変更をゼロにしつつ、同一の原理から3つの能力を解き放ちます。すなわち、解釈可能なトークン単位の報酬軌道(中間トークンのペアワイズ精度が50%から88.9%へ改善、最終トークン精度は維持);結果データのみで学習したモデルの中でProcessBenchにおける最先端のPRM性能(平均F1が44.9%);そしてPPOにおける報酬/価値の統一的モデリングで、ピークGPUメモリを27%削減し、ステップ時間を19%短縮しつつ、LLMの品質は一致させます。