FlexRec: 強化学習を用いて柔軟なニーズに適応するLLMベースのレコメンダー
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、レコメンダーシステムは動的でニーズ特有の目的に適応する必要があると主張し、複雑な目標に合わせて推奨を整合させるために、LLMの RL ベースのポストトレーニングの利用を検討している。
- 閉集合の自己回帰ランキングにおける RL の二つの主要な障害を特定している:シーケンスレベルの報酬からの粗いクレジット割り当てと、疎でノイズの多い相互作用フィードバック。
- FlexRec は、残りの候補プール内での反事実的なスワップに基づく因果的に根拠づけられたアイテムレベルの報酬と、クリティックが導く不確実性を考慮したスケーリングにより学習を安定化させる手法を提案する。
- 実証的には、ニーズ特定のランキングで NDCG@5 を最大で 59%、Recall@5 を最大で 109.4% 向上させ、一般化設定でも Recall@5 の最大 24.1% の改善を達成し、強力なベースラインを上回る。
要旨:現代のレコメンドシステムは、多様なレコメンドシナリオに対して動的かつニーズ特有の目的に適応する必要がある。一方で、従来の多くのレコメンダーは単一の静的ターゲットに最適化されており、要求に応じて挙動を再設定することが難しい。最近の強化学習ベースのポストトレーニングによって、LLMは強力な指示遵守と推論能力を発揮できるようになり、複雑なレコメンド目標に沿って彼らを整合させるための principled な道を示唆している。これを踏まえ、我々は閉集合の自己回帰ランキングを研究する。ここでは、LLM がユーザー文脈と明示的なニーズ指示に条件付けられた固定候補集合の順列を生成する。しかし、この設定に RL を適用するには二つの重要な障害がある:(i) シーケンスレベルの報酬は粗いクレジット割り当てしか与えられず、微細な学習信号を提供できない、(ii) 相互作用フィードバックが疎かつノイズが多く、学習の非効率性と不安定性を招く。私たちは FlexRec を提案する。これは、(1) 残りの候補プール内での反事実的なスワップに基づく因果的に根拠づけられたアイテムレベルの報酬と、(2) クリティック(評価者)に導かれた、報酬の不確実性を考慮したスケーリングを用い、学習を安定化させる、不確実性を考慮した学習を行うポストトレーニング RL フレームワークである。さまざまなレコメンドシナリオと目的にわたって、FlexRec は顕著な向上を示す。ニーズ特定のランキングでは NDCG@5 を最大で 59%、Recall@5 を最大で 109.4% 向上させ、一般化設定でも Recall@5 の最大 24.1% の改善を達成し、強力な従来型レコメンダーおよび LLM ベースのベースラインを凌駕する。


