ConsistRM:整合性を意識した自己学習による生成報酬モデルの改善

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、人間が注釈した高コストの報酬データを必要とせずに、LLMを人間の嗜好に整合させることを目的とした、生成報酬モデル(GRM)のための自己学習フレームワーク「ConsistRM」を提案する。
  • 時間的整合性を維持しつつ信頼性の高い疑似ラベルを生成するために、整合性を意識した回答報酬(Consistency-Aware Answer Reward)を提案し、GRMの学習と最適化の安定性を向上させる。
  • さらに、複数の批評にわたる意味的一貫性を評価し、従来の自己学習手法で見られた弱点を低減するためにきめ細かく差別化された報酬を与える、整合性を意識した批評報酬(Consistency-Aware Critique Reward)も追加する。
  • 5つのベンチマークデータセットと4つのベースモデルにまたがる実験により、ConsistRMは平均で1.5%の向上を示し、バニラの強化学習による微調整(RFT)を上回ることが確認される。分析からは、出力の一貫性がより良好で、入力順序に起因する位置バイアスが低減されていることが示される。

Abstract

生成報酬モデル(Generative Reward Models: GRM)は、従来のスカラー報酬モデルに比べて表現能力と柔軟性が高いことにより、大規模言語モデル(LLM)を人間の嗜好に整合させるための有望なアプローチとして登場してきました。 しかし、GRMには大きく2つの課題があります。1つ目は、高コストな人手による注釈データに依存しているため、スケーラビリティが制限される点です。2つ目は、自己学習(self-training)の手法はしばしば不安定であり、報酬ハッキング(reward hacking)に対して脆弱である点です。 これらの課題に対処するために、我々はConsistRMを提案します。ConsistRMは、人手による注釈なしで効果的かつ安定したGRMの学習を可能にする自己学習フレームワークです。 ConsistRMは、時間的整合性(temporal consistency)を備えた信頼性の高い疑似ラベルを生成する「整合性を意識した回答報酬(Consistency-Aware Answer Reward)」を取り入れており、より安定したモデル最適化を提供します。 さらに、「整合性を意識した批評報酬(Consistency-Aware Critique Reward)」を導入して、多数の批評にまたがる意味的一貫性を評価し、きめ細かく、かつ差別化された報酬を割り当てます。 4つの基盤モデルにまたがる5つのベンチマークデータセットでの実験により、ConsistRMはバニラの強化微調整(vanilla Reinforcement Fine-Tuning: RFT)を平均1.5%上回ることが示されました。 さらに分析により、ConsistRMは出力の一貫性を高め、入力順序によって生じる位置バイアス(position bias)を緩和することが明らかになり、GRMを改善するうえで整合性を意識した報酬が有効であることが示されます。