Abstract
本稿では、政策最適化に関する新しい視点を提案する。すなわち、重要度比(importance ratios)によってすべてのサンプルを再重み付けするのではなく、政策更新を導くのに十分信頼できるサンプルを最適化器が選択すべきだとする。これに基づき、Rejection-Gated Policy Optimization(RGPO)を導入する。RGPOは、重要度サンプリング比 r_theta = pi_theta / pi_old を、範囲[0, 1]内の滑らかで微分可能な受理ゲート alpha_theta(s, a) = g(r_theta(s, a)) で置き換える。従来研究が、学習の前にデータレベルのヒューリスティックとしてリジェクション・サンプリングを適用していたのに対し、RGPOはリジェクションを最適化の原理へと格上げする。すなわち、ゲートは勾配計算に直接参加し、暗黙的に政策とともに更新される。RGPOは統一的な枠組みを提供する。TRPO、PPO、REINFORCE の政策勾配はすべて、有効な勾配の重み w(r) = g'(r) * r に対する特定の選択に対応することを示す。さらに、重要度サンプリング比が裾の重い分布(ISの分散が発散する場合)であっても、RGPOが有限で有界な勾配分散を保証することを証明する。加えて、RGPOが生じるバイアスは有界で制御可能であり、TRPOに類似した近似的な単調な政策改善の保証を提供することを示す。
RGPOは計算コストにおいてPPOと同等で、二階の最適化を必要とせず、RLHFスタイルの嗜好(preference)整合へ自然に拡張できる。Anthropic HH-RLHF(n = 3 seeds)における Qwen2.5-1.5B-Instruct のオンライン嗜好微調整では、RGPOは二重の比(dual-ratio)ゲートを用いて、学習を前の政策と参照モデルの両方にアンカーする。これにより、パレート支配的な結果を達成する。すなわち、オンラインRL手法の中で最高の報酬(+14.8% vs. PPO-RLHF)と、参照モデルへの最小のKLダイバージェンス(-16.0% vs. PPO-RLHF、-53.1% vs. GRPO)である。




