ConsistRM:整合性を意識した自己学習による生成報酬モデルの改善
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、人間が注釈した高コストの報酬データを必要とせずに、LLMを人間の嗜好に整合させることを目的とした、生成報酬モデル(GRM)のための自己学習フレームワーク「ConsistRM」を提案する。
- 時間的整合性を維持しつつ信頼性の高い疑似ラベルを生成するために、整合性を意識した回答報酬(Consistency-Aware Answer Reward)を提案し、GRMの学習と最適化の安定性を向上させる。
- さらに、複数の批評にわたる意味的一貫性を評価し、従来の自己学習手法で見られた弱点を低減するためにきめ細かく差別化された報酬を与える、整合性を意識した批評報酬(Consistency-Aware Critique Reward)も追加する。
- 5つのベンチマークデータセットと4つのベースモデルにまたがる実験により、ConsistRMは平均で1.5%の向上を示し、バニラの強化学習による微調整(RFT)を上回ることが確認される。分析からは、出力の一貫性がより良好で、入力順序に起因する位置バイアスが低減されていることが示される。



