Target Policy Optimization(ターゲット・ポリシー最適化)
arXiv cs.LG / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習(RL)手法であるTarget Policy Optimization(TPO)を提案し、強化すべきサンプル完了(completion)の選択(どれを報酬づけするか)と、ポリシーパラメータをどのように更新するかの判断を切り離す。
- TPOは、スコア付き完了に対するターゲット分布を構築し、q_i ∝ p_i^old * exp(u_i) として、その分布に対してクロスエントロピーでポリシーを学習する。これにより得られるロジット勾配は p^θ − q となり、ポリシーがターゲットに一致したときにゼロになる。
- 表形式のバンディット、トランスフォーマーのシーケンス課題、10億パラメータ級のLLMのRLVRにわたる実験では、TPOはより容易な課題において、標準的なポリシーグラディエント系の手法と同等の性能を示す。
- 報酬が疎な設定では、TPOはPG、PPO、GRPO、DGを大きく上回り、学習率や最適化の選択に起因する過大更新/過小更新(overshoot/undershoot)といった問題に対して、頑健性が向上していることを示唆する。
- 著者らは、リンク先のGitHubリポジトリでオープンソース実装を提供しており、再現や導入を容易にしている。



