ReflectRM:統一的な判定フレームワーク内での自己反省により生成報酬モデルを強化する

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ReflectRMは、RLHFにおけるReward Modelの新パラダイムであるGenerative Reward Models(GRM)に対し、従来の「結果」中心の学習では不足していた「分析プロセス品質」を自分の自己反省(self-reflection)で評価する手法を提案している。
  • 反省によって信頼できる分析を推定し、その分析を根拠に最終的な選好(preference)予測を行うことで、応答選好と分析選好を同時に扱う「統一的な生成(unified generative)評価フレームワーク」を実現している。
  • 4つのベンチマークで一貫して性能向上が確認され、Qwen3-4Bで平均+3.7の精度向上を報告している。
  • 応答選好と分析選好は相互に強化し合うことを追加実験で示し、さらに位置バイアス(positional bias)を大幅に低減して、先行GRM比で+10.2の改善を達成したとされる。

Abstract

報酬モデル(RM)は、人間のフィードバックからの強化学習(RLHF)パイプラインにおける重要な構成要素であり、大規模言語モデル(LLM)のアライメント品質を直接的に決定します。近年、生成的報酬モデル(GRM)が、従来のスカラーRMよりも高い解釈可能性と強力な汎化を提供する、より優れたパラダイムとして登場してきました。しかし、既存のGRM手法は主として結果レベルの教師信号に焦点を当てており、分析プロセスの質を見過ごしているため、その可能性が制約されています。そこで本研究では、分析の質を自己反省によって評価し、嗜好(プレファレンス)モデリングを強化する新しいGRMであるReflectRMを提案します。ReflectRMは、応答の嗜好と分析の嗜好を共同でモデリングするための統一された生成的フレームワークのもとで学習されます。推論時には、その自己反省能力を用いて最も信頼できる分析を特定し、それにもとづいて最終的な嗜好予測を導出します。4つのベンチマークにまたがる実験により、ReflectRMが一貫して性能を改善し、Qwen3-4Bで平均精度向上が+3.7を達成することが示されます。さらに、追加実験により、応答の嗜好と分析の嗜好が相互に強化し合うことが確認されます。特筆すべき点として、ReflectRMは位置バイアスを大幅に緩和し、先行する主要なGRMと比較して+10.2の改善をもたらし、より安定した評価者としての地位を確立しています。