$P(y|x)$から$P(y)$へ:事前学習空間における強化学習の調査

arXiv cs.LG / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検証可能な報酬を用いる強化学習(RLVR)が、$P(y|x)$を最適化することでLLMの推論を改善すると主張するが、基盤モデルが持つ既存の出力分布$P(y)$によって制約される。
  • そこで、事前学習空間において周辺分布$P(y)$に対して報酬駆動のオンライン更新を直接行う手法PreRL(Pre-train Space RL)を導入し、静的コーパスに起因する分布シフトを緩和する。
  • 著者らは、$
  • abla$ log $P(y)$と$
  • abla$ log $P(y|x)$の強い勾配整合性を理論的・実証的に検証し、PreRLを標準的な強化学習の実用的な代理(サロゲート)として位置付ける。
  • 主要な機構としてNegative Sample Reinforcement(NSR)を示し、不正確な推論領域を絞り込みつつ、熟考的な振る舞いを促進することで、推移(transition)と思考の振り返り(reflection)のトークンをそれぞれ14.89倍および6.54倍に向上させる。
  • これを発展させて、NSR-PreRLを用いたDual Space RL(DSRL)により、微細な最適化のために標準強化学習へ切り替える前に推論の地平線を拡張し、強力なベースラインを上回る結果を報告する。