RLVRにおける探索の再考:エントロピー正則化から双方向エントロピーモジュレーションによる洗練(リファインメント)へ

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LLM推論に対するRLVRは、「制限された探索(restricted exploration)」によって限界があり、方策がすぐに限られた解の集合へと収束してしまいます。また、標準的なエントロピー正則化は、ハイパーパラメータに対する感度の高さから不安定になりがちです。
  • 本論文は、方策エントロピーを「情報的エントロピー(informative entropy)」(多様な解の経路を維持する)と「不必要(有害)なエントロピー(spurious entropy)」(推論を損なうパターン)に分解することで、探索の捉え方を組み替えます。
  • 効果的な探索は「エントロピー洗練(entropy refinement)」によって実現されると主張し、その仕組みはグループ相対的なアドバンテージ推定(group-relative advantage estimation)に結び付けられています。すなわち、正のロールアウトでは情報的エントロピーを維持し、負のロールアウトでは不必要なエントロピーを抑制します。
  • この洞察に基づき、著者らはAsymGRPOを提案します。AsymGRPOは、正のロールアウトと負のロールアウトがエントロピーをどのように調整するかを明示的に切り離し、有用な多様性の保持と、有害なノイズの抑制をそれぞれ独立に制御できるようにします。
  • 実験では、AsymGRPOが強力なベースラインを上回ること、また既存のエントロピー正則化アプローチと組み合わせても機能し得ることが報告されています。

要旨: 検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を大きく前進させてきました。しかし、
extit{restricted exploration(制限された探索)} と呼ばれる根本的な制約に直面しており、方策が急速に狭い範囲の解へ収束してしまいます。探索を維持するために広く用いられる手法としてエントロピー正則化がありますが、多くの場合LLMでは信頼性が乏しく、ハイパーパラメータ感度が高いことによって不安定であり、得られる性能向上はわずかなものにとどまります。これらの非効率性に動機づけられて、我々は方策エントロピーと探索の関係を改めて考えることを提案します。群に対する相対的アドバンテージ推定のパラメトリックな定式化を導出し、エントロピーのダイナミクスを解析することで、方策エントロピーを概念的に extit{informative entropy(有益なエントロピー)}(多様な解への道筋を保持する)と extit{spurious entropy(見かけのエントロピー)}(推論パターンを損なう)へ分解します。我々の分析は、盲目的な最大化とは対照的に、有効な探索には extit{entropy refinement(エントロピーの洗練)} が必要であることを示します。これは群に対する相対的アドバンテージ推定に暗黙に埋め込まれた仕組みであり、正のロールアウトでは有益なエントロピーを維持し、負のロールアウトでは見かけのエントロピーを抑制します。この洞察に導かれ、我々は
\textbf{AsymGRPO} を提案します。これは、正のロールアウトと負のロールアウトの変調を明示的に切り離す探索フレームワークです。これにより、有益なエントロピーの保持と、見かけの雑音の抑制を独立に制御できます。大規模な実験により、AsymGRPO が強力なベースラインと比べて優れた性能を達成し、既存のエントロピー正則化手法と相乗効果を生み得る可能性を示すことが確認されました。