要旨: レイヤーモデリング(Reward modeling)は、言語モデルを整列(アライメント)するための、人間のフィードバックに基づく強化学習(RLHF)において、長年にわたる課題となっています。現在の報酬モデリングは、収集コストが高い実験的フィードバックデータに強く依存しています。本研究では、
\textit{暗黙的報酬モデリング(implicit reward modeling)}――(クリックやコピーなどの)暗黙的な人間のフィードバックから報酬モデルを学習する――を、費用対効果の高い代替手段として検討します。暗黙的報酬モデリングにおける2つの根本的な課題を特定します: (1) 暗黙的選好データには決定的な負例サンプルが欠けており、そのため標準的な正例-負例分類手法が適用できない; (2) 暗黙的選好データはユーザの選好バイアスにより影響を受けており、異なる応答がユーザのフィードバック行動を引き出す傾向(propensity)をそれぞれ異にするため、決定的な負例サンプルを識別する難しさがさらに増大します。これらの課題に対処するため、我々はImplicitRMを提案します。ImplicitRMは、暗黙的選好データから偏りのない報酬モデルを学習することを目的としています。ImplicitRMは、層化モデルを介して学習サンプルを4つの潜在グループに層化します。これに基づいて、尤度最大化による学習目的を導出し、理論的に偏りがないことを証明することで、両方の課題を効果的に解決します。実験により、ImplicitRMが暗黙的選好データセット全体で正確な報酬モデルを学習できることが示されます。コードは我々のプロジェクトWebサイトで公開されています。
ImplicitRM: LLMアライメントのための暗黙の選好データからの偏りのない報酬モデリング
arXiv cs.CL / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、クリックやコピーといったコストのかかる明示的な選好ラベルではなく、暗黙の人間のフィードバックを用いてLLMアライメントのための報酬モデルを学習する手法「ImplicitRM」を提案する。
- 暗黙の選好データには、明確なネガティブサンプルが存在しないことと、異なる応答がどれほどフィードバックを引き起こしやすいかが変わることで生じる体系的なユーザ嗜好バイアス、という2つの中核的な問題があることを指摘する。
- ImplicitRMは、階層化(stratification)モデルを用いて学習データを4つの潜在グループに分割し、その後、尤度に基づく目的関数を最適化することで、これらの課題に対処する。
- 著者らは、得られた学習目的が偏りを持たないことを保証する理論的根拠を主張しており、バイアスに起因するシグナルと真のネガティブを区別する能力が向上するとしている。
- 実験では、ImplicitRMが複数の暗黙的選好データセットにわたって正確な報酬モデルを学習できることが示されたと報告されており、著者らはコードも提供している。
