Target Policy Optimization（ターゲット・ポリシー最適化）

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化学習（RL）手法であるTarget Policy Optimization（TPO）を提案し、強化すべきサンプル完了（completion）の選択（どれを報酬づけするか）と、ポリシーパラメータをどのように更新するかの判断を切り離す。
TPOは、スコア付き完了に対するターゲット分布を構築し、q_i ∝ p_i^old * exp(u_i) として、その分布に対してクロスエントロピーでポリシーを学習する。これにより得られるロジット勾配は p^θ − q となり、ポリシーがターゲットに一致したときにゼロになる。
表形式のバンディット、トランスフォーマーのシーケンス課題、10億パラメータ級のLLMのRLVRにわたる実験では、TPOはより容易な課題において、標準的なポリシーグラディエント系の手法と同等の性能を示す。
報酬が疎な設定では、TPOはPG、PPO、GRPO、DGを大きく上回り、学習率や最適化の選択に起因する過大更新／過小更新（overshoot/undershoot）といった問題に対して、頑健性が向上していることを示唆する。
著者らは、リンク先のGitHubリポジトリでオープンソース実装を提供しており、再現や導入を容易にしている。

AI Business

日経XTECH

日経XTECH

Reddit r/MachineLearning

Hugging Face Blog