ReCast:生成型レコメンドにおける強化学習のための学習シグナルの再構成

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、スパースヒットな生成型レコメンドでは、汎用のグループベース強化学習が前提とする「サンプルしたロールアウト群はすでに学習シグナルとして使える」という前提が崩れることを示しています。
  • ReCastを提案し、まず全ゼログループでも最小限の学習可能性を復元したうえで、全グループの報酬正規化の代わりに、最も強いポジティブと最も難しいネガティブに着目する境界中心のコントラスト更新を行います。
  • ReCastは外側のRL枠組みをそのままにし、グループ内の学習シグナル構築のみを変更する設計で、全体の学習パイプラインを保ちつつ効率改善を狙っています。
  • 複数の生成型レコメンド課題でReCastはOpenOneRec-RLを一貫して上回り、Pass@1で最大36.6%の相対改善を達成し、目標性能はロールアウト予算のわずか4.1%で到達します。
  • さらに、アクター側の更新時間の大幅削減(16.60x)、ピークメモリ使用量の低下(16.5%)、アクターMFUの向上(14.2%)など、システムレベルでも効率面の利得が示されます。

要旨: 一般化されたグループベースRLは、サンプルされたロールアウト・グループがすでに学習信号として利用可能であることを前提としています。私たちは、この仮定が疎なヒット生成型レコメンデーションでは崩れることを示します。そこでは、多くのサンプル・グループがまったく学習可能になりません。私たちは ReCast を提案します。これは、修復してから対比する学習信号フレームワークであり、最初に全ゼロ・グループに対して最小限の学習可能性を回復し、その後、全グループの報酬正規化を、最も強い正例と最も難しい負例に焦点を当てた境界指向の対比的更新へ置き換えます。ReCast は外側のRLフレームワークを変更せず、グループ内部の信号構築のみを変更し、ロールアウト探索の幅とアクター側の更新幅を部分的にデカップリングします。複数の生成型レコメンデーション課題において、ReCast は一貫して OpenOneRec-RL を上回り、Pass@1 で最大 36.6% の相対的改善を達成します。対応バジェットでの優位性はさらに大きく、ReCast はロールアウト予算のわずか 4.1% でベースラインの目標性能に到達し、この優位性はモデル規模の拡大とともに広がります。同じ設計は、直接的なシステムレベルの利得ももたらし、アクター側の更新時間を 16.60x 短縮し、ピーク割り当てメモリを 16.5% 減らし、アクター MFU を 14.2% 向上させます。メカニズム分析は、ReCast が持続的な「全ゼロ/単一ヒット」状態を緩和し、自然な正例が乏しい場合に学習可能性を回復し、それ以外で無駄になっていたロールアウト予算をより安定した方策更新へと変換することを示します。これらの結果は、生成型レコメンデーションにおける決定的なRL課題が、報酬の割り当てだけでなく、疎で構造化された監督から学習可能な最適化イベントをどのように構築するかであることを示唆しています。