誤りは有益になり得る:ポリシー勾配における不完全な報酬の分類
arXiv cs.LG / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、言語モデルを強化学習で学習する際に用いられる、不完全なプロキシ報酬(厳密な正解報酬が得られにくい状況)を扱う。
- 正解報酬からのずれは一様に有害ではないとし、ポリシー勾配最適化のもとで「正解報酬をどれだけ引き上げるか」によって報酬誤差を分類する。
- 理論解析により、誤差の中には無害または有益なものもあり得ること、特に「中程度の正解報酬しか得ない出力」に政策が停滞するのを防げる可能性が示される。
- RLHFに向けて、報酬誤差の“有害さ”を考慮した報酬モデル評価指標を提案し、標準的なランキング精度よりもRLHF後の言語モデル性能との相関が高いことが多いと述べる。
- 検証可能な報酬がある設定での報酬設計についても、プロキシ報酬関数の有効性は初期ポリシーや学習アルゴリズムとの相互作用に強く依存するという洞察を提供する。



