要旨: 検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLM)の推論を強化しますが、通常は正の報酬が過度に過大評価されることによって生成の多様性が限られるという傾向があります。負例強化(NSR)のような手法は、負例からのペナルティを重み付けしてこの問題を緩和しますが、正例応答と負例応答で共有される意味分布を抑制してしまう可能性があります。本論文では、多様性を失わずに推論能力を高めるために、正例と負例の応答間で類似した意味分布を切り離す負例サンプル射影残差強化学習(ResRL)を提案します。理論的に、Lazy Likelihood Displacement(LLD)を負例-正例のヘッド勾配干渉に結び付け、表現アラインメントの上界を与える単一フォワードの近似器を導出し、それを用いて保守的な優位度(advantage)の再重み付けを導きます。次にResRLは、負のトークンの隠れ表現をSVDに基づく低ランクの正部分空間に射影し、射影残差を用いて負の勾配を調整することで、推論を改善しつつ多様性を維持し、数学、コード、エージェントタスク、関数呼び出しにまたがる12のベンチマークにおいて平均で強力なベースラインを上回ります。特にResRLは、数学的推論においてNSRをAvg@16で9.4\%、Pass@128で7.0 y extbackslash%上回っています。コードは https://github.com/1229095296/ResRL.git で公開されています。
ResRL:負のサンプル射影による残差強化学習でLLMの推論力を向上
arXiv cs.LG / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、生成多様性を落とさずにLLMの推論性能を高める新しい強化学習手法としてResRLを提案しています。
- 先行手法のNegative Sample Reinforcement(NSR)は、肯定・否定の応答間で共有される意味分布を抑え込んでしまう可能性があると指摘し、それを分離する方法を提案しています。
- ResRLは理論解析として、Lazy Likelihood Displacement(LLD)を負—正の勾配干渉に結び付け、保守的なアドバンテージ再重み付けを行うための単一フォワードの代理指標を導出しています。
- 実装面では、ResRLは否定トークンの隠れ表現をSVDベースの低ランク正部分空間へ射影し、射影残差を用いて否定勾配を調整します。
- 数学・コード・エージェント課題・関数呼び出しを含む12のベンチマークで、ResRLは平均で強いベースラインを上回り、数学推論ではNSRに対してAvg@16で9.4%、Pass@128で7.0%上回っています。



