エントロピー正則化を見直す:適応係数がLLM強化学習における可能性を解き放つ
arXiv stat.ML / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- LLMの推論を高めるRLVRでは、方策エントロピーが崩壊し、方策が過度に決定論的になって探索が妨げられ、推論性能が低下することがあります。
- これまでのエントロピー正則化は、固定されたエントロピー係数に依存するため、タスクやモデル間でうまく機能せず不安定になりがちです。
- 本研究は、探索の強さはタスクの難易度に応じて調整されるべきであり、さらに有効な探索には初期値より低い範囲で方策エントロピーを中程度に維持することが重要だと論じています。
- Adaptive Entropy Regularization(AER)として、難易度に応じた係数割り当て、初期にアンカーした目標エントロピー、動的なグローバル係数調整の3要素で探索と活用のバランスを取る枠組みを提案します。
- 複数の数学推論ベンチマークでの実験では、AERがベースラインより一貫して優れ、推論精度と探索能力の両方が改善されることが示されました。



