自然言語の人間フィードバックに基づくリワードモデリング

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、バイナリの選好ラベルに基づくリワードモデリングでは、生成リワードモデルが筋の通った根拠のない批評でラベルを当てにいってしまい得るため、強化学習の報酬信号に大きなノイズが混入すると指摘しています。
  • 提案手法RM-NLHF(自然言語の人間フィードバックに基づくリワードモデリング)は、モデルが生成した批評と人間の自然言語による批評の類似度を用いて、よりプロセス重視の報酬信号を作ります。
  • 人間による批評データのスケール拡大が難しい点に対し、Meta Reward Model(MetaRM)を導入し、批評付きデータでプロセス報酬を学習したうえで、批評なしデータにも一般化させます。
  • 複数のベンチマークで、RM-NLHF(およびMetaRMの枠組み)が、アウトカムのみの報酬で学習した既存の最先端GRMを一貫して上回ることが示されています。
  • 総じて、二値の結果だけに限定された教師データよりも、自然言語フィードバックを組み込むことでリワードモデリングの品質が向上することを裏付ける内容です。