自己回帰モデルにおける政策改善としてのReward Weighted Classifier-Free Guidance

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、属性ベクトルで要約できる出力を生成する自己回帰モデルを対象に、特性間のトレードオフを表す任意の報酬関数 r(y) を扱う。
Reward Weighted Classifier-Free Guidance（RCFG）を、Q関数によってサンプリング分布の再チルトの効果を近似する「政策改善オペレータ」として提案する。
強化学習による再訓練とは異なり、RCFGは新しい報酬関数に対してテスト時に最適化でき、完全な再学習なしで再アラインメントを可能にする。
分子生成の実験では、RCFGが新規の報酬関数を扱えることが示され、RCFGを教師として蒸留し基礎ポリシーへ反映することで、標準的なRLの収束が大幅に速まることが報告される。

概要: 出力 x（例：質問への回答、分子）を生成する自己回帰モデルを考える。このとき、各出力は属性ベクトル y（例：有用性 vs. 無害性、または生体利用能 vs. リポフィリシティ）によって要約できる。任意の報酬関数 r(y) は、これらの特性間のトレードオフを符号化する。通常、当該報酬を増加させるためにモデルのサンプリング分布を傾ける操作は、強化学習によって学習時に行われる。しかし、報酬関数が変化すると、再調整には再学習が必要になる。本論文では、報酬加重分類自由ガイダンス（RCFG）が、この状況において方策改善オペレータとして機能し、Q関数によってサンプリング分布の傾けを近似できることを示す。我々は分子生成に対してRCFGを適用し、それがテスト時に新しい報酬関数を最適化できることを実証する。最後に、RCFGを教師として用い、基礎となる方策へ蒸留してウォームスタートとして機能させることで、標準的な強化学習における収束が大幅に速まることを示す。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

自己回帰モデルにおける政策改善としてのReward Weighted Classifier-Free Guidance

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer