RMGAP:多様な嗜好にわたるリワードモデルの汎化能力をベンチマークする

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユニバーサルな嗜好だけでなく、多様なユーザーの嗜好に対してリワードモデル(RM)が汎化できるかを検証するための新しいベンチマーク「RMGAP」を提案する。
  • RMGAPはChat、Writing、Reasoning、Safetyの4ドメインにまたがる1,097件のインスタンスを収録し、各プロンプトに対して言語的特徴の異なる複数の候補応答を生成したうえで、嗜好に対応したプロンプトを作り込む。
  • ユーザーが同じ嗜好を異なる言い回しで表す点を反映するため、各プロンプトに言い換え(パラフレーズ)版のバリアントも追加し、同一嗜好の表現揺れを広くカバーする。
  • 24の最先端リワードモデルを評価した結果、性能には大きな制約が見られ、最高RMでもBest-of-N精度は49.27%にとどまり、汎化が十分でないことが示される。
  • 付随するデータとコードは、指定されたGitHubリポジトリで公開されており、リワードモデルの汎化に関する今後の研究を支援する。