Abstract
検証可能な報酬による強化学習(RLVR)は、主要なポストトレーニングのレシピとなっている。オンポリシー探索に適切なオフポリシー軌道を導入することで、RLVRの収束は加速され、性能の上限は引き上げられるが、そのような軌道の出所を見つけることが依然として主要な課題である。既存の混合ポリシー手法は、外部の教師から軌道を取り込む(高品質だが分布的に遠い)か、過去の学習軌道をリプレイする(近いが品質が上限で頭打ちになる)かのいずれかであり、最大化に必要な「十分に強い」(より高いQ、学ぶべき新しい知識がより多い)条件と「十分に近い」(より低いV、より吸収されやすい)条件の両方を同時に満たして、効果的な学習信号 mathcal{S} = Q/V を最大化することができない。そこで我々は、bf{N}ear-Future bf{P}olicy bf{O}ptimization(bf{NPO})を提案する。これは単純な混合ポリシーの枠組みで、ポリシー自身の「近い将来」の自己から学習する。すなわち、同一の学習実行から得られる後続チェックポイントは、現在のポリシーよりも強く、かつ外部ソースのどれよりも近いという、補助軌道の自然な出所となる。これにより、軌道品質と分散コストを直接的に釣り合わせることができる。我々は、NPOを2つの手動介入—初期段階でのブートストラップと後期段階での停滞の突破—によって検証し、さらに bf{AutoNPO} を提案する。これはオンライン学習の信号から介入を自動的に発火させ、S を最大化するガイドとなるチェックポイントを選択する適応的な変種である。GRPO を用いる Qwen3-VL-8B-Instruct において、NPO は平均性能を 57.88 から 62.84 へ改善し、AutoNPO はそれを 63.15 まで押し上げる。これにより、収束を加速しつつ最終的な性能上限を引き上げる。