誤りは有益になり得る:ポリシー勾配における不完全な報酬の分類

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、言語モデルを強化学習で学習する際に用いられる、不完全なプロキシ報酬(厳密な正解報酬が得られにくい状況)を扱う。
  • 正解報酬からのずれは一様に有害ではないとし、ポリシー勾配最適化のもとで「正解報酬をどれだけ引き上げるか」によって報酬誤差を分類する。
  • 理論解析により、誤差の中には無害または有益なものもあり得ること、特に「中程度の正解報酬しか得ない出力」に政策が停滞するのを防げる可能性が示される。
  • RLHFに向けて、報酬誤差の“有害さ”を考慮した報酬モデル評価指標を提案し、標準的なランキング精度よりもRLHF後の言語モデル性能との相関が高いことが多いと述べる。
  • 検証可能な報酬がある設定での報酬設計についても、プロキシ報酬関数の有効性は初期ポリシーや学習アルゴリズムとの相互作用に強く依存するという洞察を提供する。

Abstract

強化学習によって言語モデルを訓練する際には、多くの場合、不完全な代理報酬(proxy rewards)に依存します。意図された振る舞いを正確に定義する真の報酬(ground truth rewards)は、めったに利用できないためです。ランキング精度(ranking accuracy)のような代理報酬の品質を評価するための標準的な指標は、誤った報酬を厳密に有害であるとして扱います。しかし本研究では、この点が一様ではないこと、すなわち真値からの逸脱がすべて同じではないことを強調します。方策勾配最適化(policy gradient optimization)の過程でどの出力に確率が引き寄せられるかを理論的に分析することで、報酬誤り(reward errors)を、真の報酬の増加に与える影響に応じて分類します。その分析により、従来は有害とみなされてきた報酬誤りであっても、良性であったり、さらには有益でさえあり得ることが示されます。具体的には、真の報酬が平凡な出力の周りで方策が停滞(stalls)するのを防ぐことで、効果的に機能し得るのです。続いて、本理論から得られる実用上の含意を2つ提示します。第一に、強化学習による人間のフィードバック(RLHF)に対して、報酬誤りの有害性を考慮した報酬モデル評価指標を開発します。これらの指標は、標準的なランキング精度と比べて、通常、RLHF後の言語モデルの性能とよりよく相関しますが、それでもなお報酬モデルを堅牢に評価するうえでのギャップは残っています。第二に、検証可能な報酬が扱える設定における報酬設計(reward design)に関する洞察を提供します。本結果の背景にある重要なテーマは、代理報酬関数の有効性が、初期方策(initial policy)および学習アルゴリズムとの相互作用に大きく依存する、という点です。