ResRL：負のサンプル射影による残差強化学習でLLMの推論力を向上

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、生成多様性を落とさずにLLMの推論性能を高める新しい強化学習手法としてResRLを提案しています。
先行手法のNegative Sample Reinforcement（NSR）は、肯定・否定の応答間で共有される意味分布を抑え込んでしまう可能性があると指摘し、それを分離する方法を提案しています。
ResRLは理論解析として、Lazy Likelihood Displacement（LLD）を負—正の勾配干渉に結び付け、保守的なアドバンテージ再重み付けを行うための単一フォワードの代理指標を導出しています。
実装面では、ResRLは否定トークンの隠れ表現をSVDベースの低ランク正部分空間へ射影し、射影残差を用いて否定勾配を調整します。
数学・コード・エージェント課題・関数呼び出しを含む12のベンチマークで、ResRLは平均で強いベースラインを上回り、数学推論ではNSRに対してAvg@16で9.4%、Pass@128で7.0%上回っています。

要旨: 検証可能な報酬による強化学習（RLVR）は、大規模言語モデル（LLM）の推論を強化しますが、通常は正の報酬が過度に過大評価されることによって生成の多様性が限られるという傾向があります。負例強化（NSR）のような手法は、負例からのペナルティを重み付けしてこの問題を緩和しますが、正例応答と負例応答で共有される意味分布を抑制してしまう可能性があります。本論文では、多様性を失わずに推論能力を高めるために、正例と負例の応答間で類似した意味分布を切り離す負例サンプル射影残差強化学習（ResRL）を提案します。理論的に、Lazy Likelihood Displacement（LLD）を負例-正例のヘッド勾配干渉に結び付け、表現アラインメントの上界を与える単一フォワードの近似器を導出し、それを用いて保守的な優位度（advantage）の再重み付けを導きます。次にResRLは、負のトークンの隠れ表現をSVDに基づく低ランクの正部分空間に射影し、射影残差を用いて負の勾配を調整することで、推論を改善しつつ多様性を維持し、数学、コード、エージェントタスク、関数呼び出しにまたがる12のベンチマークにおいて平均で強力なベースラインを上回ります。特にResRLは、数学的推論においてNSRをAvg@16で9.4\%、Pass@128で7.0 y extbackslash%上回っています。コードは https://github.com/1229095296/ResRL.git で公開されています。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

ResRL：負のサンプル射影による残差強化学習でLLMの推論力を向上

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」