生成型レコメンドシステムのポストトレーニングにおける頑健性: 指数的報酬重み付けSFTがRLHFを上回る理由

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、観測報酬に基づくオフライン最適化を可能にする、重み w = exp(r/λ) を用いた指数的報酬重み付きSFTを生成型レコメンドシステムのポストトレーニングに適用することを提案します。
このアプローチは報酬ハッキングを回避し、傾向スコアを必要とせず、オンライン相互作用が現実的でない本番規模のシステムに適しています。
著者らは、カタログサイズに対して対数的にスケールするギャップを伴うポリシー改善の理論的保証と、ロバスト性-信頼性のトレードオフを制御する調整可能な λ を提供します。
オープンソース3データセットと1つの独自データセットを対象とした実験は、本手法がRLHFベースラインを一貫して上回り、スケーラビリティと有効性を示しています。

本文: arXiv:2603.10279v1 発表タイプ: new 要旨: 観測者の嗜好に合わせて生成型レコメンドシステムをポストトレーニングで整合させることは、次のアイテム予測と実際の推奨品質のギャップを埋める上で重要です。従来のポストトレーニング手法は本番規模のシステムには適していません。RLHF 手法はノイズの多いユーザーフィードバックと信頼できない報酬モデルのため報酬ハックを助長し、オフラインRLの代替手段は利用不可能な傾向スコアを必要とし、オンラインの相互作用は実現不能です。我々は、$w = \\exp(r/\\lambda)$ という重みを用いた指数的報酬重み付きSFTがこの設定に特有に適していると特定し、その理由を説明する理論的・実証的基盤を提供します。観測された報酬を学習済み報酬モデルに問い合せることなく直接最適化することで、本法は報酬ハッキングに対して免疫を持ち、傾向スコアを必要とせず、完全にオフラインです。ノイズのある報酬下でこの設定の初めてのポリシー改善保証を証明し、ギャップはカタログサイズと対数的にしかスケールせず、大規模なアイテムカタログでも情報量を保つことを示します。さらに、温度 λ がロバストネス-改善トレードオフを明示的かつ定量的に制御することを示し、実務者に理論的根拠を持つ単一の解釈可能な正則化ハイパーパラメータを提供します。3つのオープンソースデータセットと1つの社内データセットを対象とした4つのベースラインとの比較実験は、指数的報酬重み付けが簡潔でスケーラブルであり、RLHFベースの代替手法を一貫して上回ることを確認しています。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

生成型レコメンドシステムのポストトレーニングにおける頑健性: 指数的報酬重み付けSFTがRLHFを上回る理由

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも