エントロピー正則化を見直す:適応係数がLLM強化学習における可能性を解き放つ

arXiv stat.ML / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • LLMの推論を高めるRLVRでは、方策エントロピーが崩壊し、方策が過度に決定論的になって探索が妨げられ、推論性能が低下することがあります。
  • これまでのエントロピー正則化は、固定されたエントロピー係数に依存するため、タスクやモデル間でうまく機能せず不安定になりがちです。
  • 本研究は、探索の強さはタスクの難易度に応じて調整されるべきであり、さらに有効な探索には初期値より低い範囲で方策エントロピーを中程度に維持することが重要だと論じています。
  • Adaptive Entropy Regularization(AER)として、難易度に応じた係数割り当て、初期にアンカーした目標エントロピー、動的なグローバル係数調整の3要素で探索と活用のバランスを取る枠組みを提案します。
  • 複数の数学推論ベンチマークでの実験では、AERがベースラインより一貫して優れ、推論精度と探索能力の両方が改善されることが示されました。

Abstract

推論能力は、大規模言語モデル(LLM)の決定的な能力となりつつあり、その強化のための主要なパラダイムとして、検証可能な報酬による強化学習(Reinforcement Learning with Verifiable Rewards: RLVR)が登場している。しかし、RLVRの学習ではしばしば政策エントロピーの崩壊が起き、政策が過度に決定的になって探索が妨げられ、その結果、推論性能が制限される。エントロピー正則化は一般的な対処法だが、その有効性は固定係数に非常に敏感であり、タスクやモデルをまたいで不安定になりやすい。本研究では、RLVRにおけるエントロピー正則化を改めて見直し、その潜在力が大きく過小評価されていると主張する。分析の結果、(i)難易度の異なるタスクでは探索強度が別々に求められること、そして(ii)釣り合った探索には、政策エントロピーを初期水準より下の適度な範囲内に維持する必要があることが示される。そこで我々は、Adaptive Entropy Regularization(AER)――3つの要素により探索と活用(exploitation)を動的にバランスさせる枠組み――を提案する。具体的には、難易度に応じた係数配分、初期値に根ざした目標エントロピー、そして動的なグローバル係数の調整である。複数の数学的推論ベンチマークに対する実験により、AERは一貫してベースラインを上回り、推論精度と探索能力の両方が改善されることが示された。