ReflectRM:統一的な判定フレームワーク内での自己反省により生成報酬モデルを強化する
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ReflectRMは、RLHFにおけるReward Modelの新パラダイムであるGenerative Reward Models(GRM)に対し、従来の「結果」中心の学習では不足していた「分析プロセス品質」を自分の自己反省(self-reflection)で評価する手法を提案している。
- 反省によって信頼できる分析を推定し、その分析を根拠に最終的な選好(preference)予測を行うことで、応答選好と分析選好を同時に扱う「統一的な生成(unified generative)評価フレームワーク」を実現している。
- 4つのベンチマークで一貫して性能向上が確認され、Qwen3-4Bで平均+3.7の精度向上を報告している。
- 応答選好と分析選好は相互に強化し合うことを追加実験で示し、さらに位置バイアス(positional bias)を大幅に低減して、先行GRM比で+10.2の改善を達成したとされる。


