オフライン強化学習のための将来方策近似が数学的推論を改善する
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMによる数学的推論に対するオフライン強化学習が、オンラインRLより効果が低いのは、「長いホライゾンの軌跡における勾配のもつれ(gradient entanglement)」によって、正しい解と誤った解がトークン上で重なり合うためだと主張する。
- そこで、将来方策近似(Future Policy Approximation: FPA)を導入する。これは、現在の方策ではなく、将来の方策の推定(logit空間での外挿によって算出)を用いてオフラインRLの勾配に重み付けを行い、計算オーバーヘッドは無視できる程度に抑える。
- 著者らは理論的動機として、FPAをOptimistic Mirror Descentに結び付けて説明し、さらにDPOとの関連性にも言及することで、本手法を既存のRLHFスタイルの学習フレームワーク内に位置付ける。
- 3つのモデルと7つの数学ベンチマークにわたる実験により、DPO、RPO、KTO、素のオフラインRLを含む複数の強力なオフライン基準手法に対して一貫した改善が示される。
- FPAは、単純な目的関数では性能が劣化する長いホライゾンのオフライントレーニングを安定化し、精度はオンラインRLVRに匹敵しつつ、GPU計算量は大幅に少ないことが報告されている。



