AI Navigate

生成型レコメンドシステムのポストトレーニングにおける頑健性: 指数的報酬重み付けSFTがRLHFを上回る理由

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、観測報酬に基づくオフライン最適化を可能にする、重み w = exp(r/λ) を用いた指数的報酬重み付きSFTを生成型レコメンドシステムのポストトレーニングに適用することを提案します。
  • このアプローチは報酬ハッキングを回避し、傾向スコアを必要とせず、オンライン相互作用が現実的でない本番規模のシステムに適しています。
  • 著者らは、カタログサイズに対して対数的にスケールするギャップを伴うポリシー改善の理論的保証と、ロバスト性-信頼性のトレードオフを制御する調整可能な λ を提供します。
  • オープンソース3データセットと1つの独自データセットを対象とした実験は、本手法がRLHFベースラインを一貫して上回り、スケーラビリティと有効性を示しています。
本文: arXiv:2603.10279v1 発表タイプ: new 要旨: 観測者の嗜好に合わせて生成型レコメンドシステムをポストトレーニングで整合させることは、次のアイテム予測と実際の推奨品質のギャップを埋める上で重要です。従来のポストトレーニング手法は本番規模のシステムには適していません。RLHF 手法はノイズの多いユーザーフィードバックと信頼できない報酬モデルのため報酬ハックを助長し、オフラインRLの代替手段は利用不可能な傾向スコアを必要とし、オンラインの相互作用は実現不能です。我々は、$w = \\exp(r/\\lambda)$ という重みを用いた指数的報酬重み付きSFTがこの設定に特有に適していると特定し、その理由を説明する理論的・実証的基盤を提供します。観測された報酬を学習済み報酬モデルに問い合せることなく直接最適化することで、本法は報酬ハッキングに対して免疫を持ち、傾向スコアを必要とせず、完全にオフラインです。ノイズのある報酬下でこの設定の初めてのポリシー改善保証を証明し、ギャップはカタログサイズと対数的にしかスケールせず、大規模なアイテムカタログでも情報量を保つことを示します。さらに、温度 λ がロバストネス-改善トレードオフを明示的かつ定量的に制御することを示し、実務者に理論的根拠を持つ単一の解釈可能な正則化ハイパーパラメータを提供します。3つのオープンソースデータセットと1つの社内データセットを対象とした4つのベースラインとの比較実験は、指数的報酬重み付けが簡潔でスケーラブルであり、RLHFベースの代替手法を一貫して上回ることを確認しています。