重要度サンプリングを超えて:拒否ゲーティング付きポリシー最適化(RGPO)

arXiv cs.LG / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、重要度比で全サンプルを再重み付けする代わりに、政策更新に用いる「信頼できる」サンプルを選別するための微分可能な受理ゲートを学習する、Rejection-Gated Policy Optimization(RGPO)を提案しています。
  • RGPOは重要度サンプリング比を、alpha_theta(s, a)=g(r_theta(s, a)) の滑らかな受理関数に置き換え、このゲートを勾配計算へ直接組み込み、政策とともに暗黙に更新されるようにしています。
  • 著者らは、重要度比が重い裾(heavy-tailed)を持つ状況でも、標準的な重要度サンプリングで分散が発散し得る場合に対して、RGPOが勾配分散を有限かつ有界に抑えられることを示します。
  • RGPOは有効な勾配重み w(r)=g'(r)*r を通じて、TRPO、PPO、REINFORCEを特別な場合として回収でき、さらにバイアスを有界かつ制御可能にしつつ、TRPOに類似した(近似的な)単調改善の保証を与えます。
  • 実験では、Anthropic HH-RLHFを用いたQwen2.5-1.5B-Instructのオンライン嗜好微調整で、PPO-RLHFに対してパレート優位の結果(報酬+14.8%、参照モデルへのKLが-16.0%)を報告し、GRPOよりもKL低下が大きいことも示しています。

Abstract

本稿では、政策最適化に関する新しい視点を提案する。すなわち、重要度比(importance ratios)によってすべてのサンプルを再重み付けするのではなく、政策更新を導くのに十分信頼できるサンプルを最適化器が選択すべきだとする。これに基づき、Rejection-Gated Policy Optimization(RGPO)を導入する。RGPOは、重要度サンプリング比 r_theta = pi_theta / pi_old を、範囲[0, 1]内の滑らかで微分可能な受理ゲート alpha_theta(s, a) = g(r_theta(s, a)) で置き換える。従来研究が、学習の前にデータレベルのヒューリスティックとしてリジェクション・サンプリングを適用していたのに対し、RGPOはリジェクションを最適化の原理へと格上げする。すなわち、ゲートは勾配計算に直接参加し、暗黙的に政策とともに更新される。

RGPOは統一的な枠組みを提供する。TRPO、PPO、REINFORCE の政策勾配はすべて、有効な勾配の重み w(r) = g'(r) * r に対する特定の選択に対応することを示す。さらに、重要度サンプリング比が裾の重い分布(ISの分散が発散する場合)であっても、RGPOが有限で有界な勾配分散を保証することを証明する。加えて、RGPOが生じるバイアスは有界で制御可能であり、TRPOに類似した近似的な単調な政策改善の保証を提供することを示す。

RGPOは計算コストにおいてPPOと同等で、二階の最適化を必要とせず、RLHFスタイルの嗜好(preference)整合へ自然に拡張できる。Anthropic HH-RLHF(n = 3 seeds)における Qwen2.5-1.5B-Instruct のオンライン嗜好微調整では、RGPOは二重の比(dual-ratio)ゲートを用いて、学習を前の政策と参照モデルの両方にアンカーする。これにより、パレート支配的な結果を達成する。すなわち、オンラインRL手法の中で最高の報酬(+14.8% vs. PPO-RLHF)と、参照モデルへの最小のKLダイバージェンス(-16.0% vs. PPO-RLHF、-53.1% vs. GRPO)である。