概要: 出力 x(例:質問への回答、分子)を生成する自己回帰モデルを考える。このとき、各出力は属性ベクトル y(例:有用性 vs. 無害性、または生体利用能 vs. リポフィリシティ)によって要約できる。任意の報酬関数 r(y) は、これらの特性間のトレードオフを符号化する。通常、当該報酬を増加させるためにモデルのサンプリング分布を傾ける操作は、強化学習によって学習時に行われる。しかし、報酬関数が変化すると、再調整には再学習が必要になる。本論文では、報酬加重分類自由ガイダンス(RCFG)が、この状況において方策改善オペレータとして機能し、Q関数によってサンプリング分布の傾けを近似できることを示す。我々は分子生成に対してRCFGを適用し、それがテスト時に新しい報酬関数を最適化できることを実証する。最後に、RCFGを教師として用い、基礎となる方策へ蒸留してウォームスタートとして機能させることで、標準的な強化学習における収束が大幅に速まることを示す。
自己回帰モデルにおける政策改善としてのReward Weighted Classifier-Free Guidance
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、属性ベクトルで要約できる出力を生成する自己回帰モデルを対象に、特性間のトレードオフを表す任意の報酬関数 r(y) を扱う。
- Reward Weighted Classifier-Free Guidance(RCFG)を、Q関数によってサンプリング分布の再チルトの効果を近似する「政策改善オペレータ」として提案する。
- 強化学習による再訓練とは異なり、RCFGは新しい報酬関数に対してテスト時に最適化でき、完全な再学習なしで再アラインメントを可能にする。
- 分子生成の実験では、RCFGが新規の報酬関数を扱えることが示され、RCFGを教師として蒸留し基礎ポリシーへ反映することで、標準的なRLの収束が大幅に速まることが報告される。



