RLVRにおける探索の再考：エントロピー正則化から双方向エントロピーモジュレーションによる洗練（リファインメント）へ

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LLM推論に対するRLVRは、「制限された探索（restricted exploration）」によって限界があり、方策がすぐに限られた解の集合へと収束してしまいます。また、標準的なエントロピー正則化は、ハイパーパラメータに対する感度の高さから不安定になりがちです。
本論文は、方策エントロピーを「情報的エントロピー（informative entropy）」（多様な解の経路を維持する）と「不必要（有害）なエントロピー（spurious entropy）」（推論を損なうパターン）に分解することで、探索の捉え方を組み替えます。
効果的な探索は「エントロピー洗練（entropy refinement）」によって実現されると主張し、その仕組みはグループ相対的なアドバンテージ推定（group-relative advantage estimation）に結び付けられています。すなわち、正のロールアウトでは情報的エントロピーを維持し、負のロールアウトでは不必要なエントロピーを抑制します。
この洞察に基づき、著者らはAsymGRPOを提案します。AsymGRPOは、正のロールアウトと負のロールアウトがエントロピーをどのように調整するかを明示的に切り離し、有用な多様性の保持と、有害なノイズの抑制をそれぞれ独立に制御できるようにします。
実験では、AsymGRPOが強力なベースラインを上回ること、また既存のエントロピー正則化アプローチと組み合わせても機能し得ることが報告されています。

要旨: 検証可能な報酬による強化学習（RLVR）は、大規模言語モデル（LLMs）の推論能力を大きく前進させてきました。しかし、
extit{restricted exploration（制限された探索）} と呼ばれる根本的な制約に直面しており、方策が急速に狭い範囲の解へ収束してしまいます。探索を維持するために広く用いられる手法としてエントロピー正則化がありますが、多くの場合LLMでは信頼性が乏しく、ハイパーパラメータ感度が高いことによって不安定であり、得られる性能向上はわずかなものにとどまります。これらの非効率性に動機づけられて、我々は方策エントロピーと探索の関係を改めて考えることを提案します。群に対する相対的アドバンテージ推定のパラメトリックな定式化を導出し、エントロピーのダイナミクスを解析することで、方策エントロピーを概念的に extit{informative entropy（有益なエントロピー）}（多様な解への道筋を保持する）と extit{spurious entropy（見かけのエントロピー）}（推論パターンを損なう）へ分解します。我々の分析は、盲目的な最大化とは対照的に、有効な探索には extit{entropy refinement（エントロピーの洗練）} が必要であることを示します。これは群に対する相対的アドバンテージ推定に暗黙に埋め込まれた仕組みであり、正のロールアウトでは有益なエントロピーを維持し、負のロールアウトでは見かけのエントロピーを抑制します。この洞察に導かれ、我々は
\textbf{AsymGRPO} を提案します。これは、正のロールアウトと負のロールアウトの変調を明示的に切り離す探索フレームワークです。これにより、有益なエントロピーの保持と、見かけの雑音の抑制を独立に制御できます。大規模な実験により、AsymGRPO が強力なベースラインと比べて優れた性能を達成し、既存のエントロピー正則化手法と相乗効果を生み得る可能性を示すことが確認されました。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/7Dailyインサイトを見る →

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

RLVRにおける探索の再考：エントロピー正則化から双方向エントロピーモジュレーションによる洗練（リファインメント）へ

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透