近未来ポリシー最適化

arXiv cs.LG / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、強い報酬検証(verifiable rewards)を用いる強化学習(RLVR)における主要なボトルネックである「オフポリシー軌跡の確保」に焦点を当て、学習上限を押し上げるほど十分に強い一方で、オンポリシー探索に吸収されやすいほど近い軌跡をどう得るかを扱います。
  • 提案手法は Near-Future Policy Optimization(NPO)で、同一学習ランにおける将来の「近未来」チェックポイントから補助軌跡を作ることで、軌跡の質と分散コストの両立を図ります。
  • さらに、オンライン学習のシグナルに基づいて介入のタイミングを自動決定し、S = Q/V を最大化するガイドとなるチェックポイントを選ぶ AutoNPO も提案されています。
  • 実験では Qwen3-VL-8B-Instruct + GRPO にて、NPO が平均性能を 57.88 から 62.84 に改善し、AutoNPO は 63.15 まで引き上げるとともに収束も加速しました。

Abstract

検証可能な報酬による強化学習(RLVR)は、主要なポストトレーニングのレシピとなっている。オンポリシー探索に適切なオフポリシー軌道を導入することで、RLVRの収束は加速され、性能の上限は引き上げられるが、そのような軌道の出所を見つけることが依然として主要な課題である。既存の混合ポリシー手法は、外部の教師から軌道を取り込む(高品質だが分布的に遠い)か、過去の学習軌道をリプレイする(近いが品質が上限で頭打ちになる)かのいずれかであり、最大化に必要な「十分に強い」(より高いQ、学ぶべき新しい知識がより多い)条件と「十分に近い」(より低いV、より吸収されやすい)条件の両方を同時に満たして、効果的な学習信号 mathcal{S} = Q/V を最大化することができない。そこで我々は、bf{N}ear-Future bf{P}olicy bf{O}ptimization(bf{NPO})を提案する。これは単純な混合ポリシーの枠組みで、ポリシー自身の「近い将来」の自己から学習する。すなわち、同一の学習実行から得られる後続チェックポイントは、現在のポリシーよりも強く、かつ外部ソースのどれよりも近いという、補助軌道の自然な出所となる。これにより、軌道品質と分散コストを直接的に釣り合わせることができる。我々は、NPOを2つの手動介入—初期段階でのブートストラップと後期段階での停滞の突破—によって検証し、さらに bf{AutoNPO} を提案する。これはオンライン学習の信号から介入を自動的に発火させ、S を最大化するガイドとなるチェックポイントを選択する適応的な変種である。GRPO を用いる Qwen3-VL-8B-Instruct において、NPO は平均性能を 57.88 から 62.84 へ改善し、AutoNPO はそれを 63.15 まで押し上げる。これにより、収束を加速しつつ最終的な性能上限を引き上げる。