オフライン強化学習のための将来方策近似が数学的推論を改善する

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMによる数学的推論に対するオフライン強化学習が、オンラインRLより効果が低いのは、「長いホライゾンの軌跡における勾配のもつれ(gradient entanglement)」によって、正しい解と誤った解がトークン上で重なり合うためだと主張する。
  • そこで、将来方策近似(Future Policy Approximation: FPA)を導入する。これは、現在の方策ではなく、将来の方策の推定(logit空間での外挿によって算出)を用いてオフラインRLの勾配に重み付けを行い、計算オーバーヘッドは無視できる程度に抑える。
  • 著者らは理論的動機として、FPAをOptimistic Mirror Descentに結び付けて説明し、さらにDPOとの関連性にも言及することで、本手法を既存のRLHFスタイルの学習フレームワーク内に位置付ける。
  • 3つのモデルと7つの数学ベンチマークにわたる実験により、DPO、RPO、KTO、素のオフラインRLを含む複数の強力なオフライン基準手法に対して一貫した改善が示される。
  • FPAは、単純な目的関数では性能が劣化する長いホライゾンのオフライントレーニングを安定化し、精度はオンラインRLVRに匹敵しつつ、GPU計算量は大幅に少ないことが報告されている。

Abstract

強化学習(RL)は、大規模言語モデル(LLM)における事後学習での複雑な推論を駆動する主要な要因として登場してきましたが、オンラインRLは大きな不安定性と計算オーバーヘッドをもたらします。オフラインRLは推論と学習を切り離すことで有力な代替手段を提供しますが、それでも推論のためのオフライン手法は、オンラインの対応手法に比べて最適化が不十分です。中心となる課題は勾配の絡み合い(gradient entanglement)です。長い時間軸を持つ推論の軌道では、正しい解答と誤った解答が実質的に同一のトークンにまたがってしまうため、誤った軌道からの勾配更新が、正しいものにとって重要なトークンを抑制してしまいます。我々は、現在の方策ではなく未来の方策の推定に対して勾配を重み付けする、単純な手法であるFuture Policy Approximation(FPA)を提案します。これにより、先回りした勾配の再重み付けが可能になります。この未来の方策は、ログit空間での外挿(logit-space extrapolation)によって、オーバーヘッドはごくわずかです。Optimistic Mirror Descentの観点からFPAの理論的な直観を与え、さらにDPOとの関連を通じてその位置付けを強固にします。3つのモデルと7つの数学ベンチマークにわたってFPAを評価したところ、DPO、RPO、KTO、ならびにバニラのオフラインRLを含む強力なオフライン基線に対して、一貫した改善が示されました。FPAは、バニラ目的が劣化する長時間軸の学習を安定化させ、GPU時間の一部という割合でオンラインRLVRと同等の精度を達成します。