要旨: 人間のフィードバックからの強化学習(RLHF)が言語モデルの整合性を取ることに成功しているにもかかわらず、現状の報酬モデリングは、制御された高コストの条件下で人間のアノテータから収集された実験データのフィードバックに大きく依存しています。 本研究では、観察的報酬モデリング――観察的なユーザーフィードバック(例:クリック、コピー、アップボート)を用いて報酬モデルを学習する――を、拡張性が高く費用対効果の高い代替手段として導入します。 この設定には2つの基本的な課題があることを特定します:(1) 観察的フィードバックはアノテーションエラーによりノイズが生じ、真のユーザー嗜好から逸脱します;(2) 観察的フィードバックはユーザー嗜好によってバイアスされ、ユーザーは強く感じている回答に対してフィードバックを提供する傾向があり、訓練データと推論データの分布シフトを生み出します。 これらの課題に対処するため、観察的フィードバックから偏りのない報酬モデルを学習することを目的とした因果理論ベースの報酬モデリングフレームワークであるCausalRMを提案します。 課題(1)に対処するには、CausalRMはノイズ耐性を持つ代理損失項を導入し、アノテーションエラー生成プロセスを明示的にモデル化することによりノイズフリー条件下で元の損失関数と同等であることを証明可能にします。 課題(2)に対処するには、CausalRMは傾向スコア――特定の回答に対してユーザーがフィードバックを提供する確率――を用いて訓練サンプルの重みを再重み付けし、ユーザー嗜好バイアスを排除する損失関数を生み出します。 多様なLLMバックボーンとベンチマークデータセットにわたる広範な実験は、CausalRMがノイズを含み偏った観察的フィードバックから正確な報酬信号を効果的に学習し、下流のRLHFタスクで顕著な性能向上を実現することを検証しました――WildGuardMixで49.2%の向上、HarmBenchで32.7%の改善を含みます。 コードは私たちのプロジェクト公式ウェブサイトで公開されています。
CausalRM: 観測的ユーザー・フィードバックからの因果理論に基づく報酬モデリングによる RLHF
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クリック・コピー・アップボートなどのユーザー・インタラクションから報酬モデルを学ぶ、従来の専門家アノテーションに代わるスケーラブルな観測データに基づく報酬モデリングを提案する。
- 主な課題として、アノテーションノイズが真のユーザー嗜好からの逸脱を引き起こすことと、強く感じた反応のフィードバックのみを提供するユーザーによるバイアスの2点を挙げる。
- CausalRM は、アノテーションエラーが発生する過程を明示的にモデル化することによってノイズを考慮した代理損失を導入し、ノイズのない条件下で原損失と証明可能に等価になるようにする。さらに、訓練サンプルを再重み付けするためにプロペンシティスコアを用い、ユーザー嗜好バイアスを除去する。
- 異なるLLMバックボーンとベンチマークにまたがる実験では、WildGuardMixで49.2%、HarmBenchで32.7%という顕著なゲインを示し、コードはプロジェクト公式サイトで公開されている。


