LLMのRLにおける性能飽和を精密なエントロピー曲線制御で解決する
arXiv cs.LG / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMに対する強化学習(RL)が学習規模の拡大に伴って探索が制限され、性能が頭打ちになる主因としてエントロピー崩壊があると主張している。
- その解決として、エントロピー崩壊を防ぐための正確なユーザー指定エントロピー・スケジュールを実現するEntrocraft(リジェクション・サンプリング手法)を提案している。
- Entrocraftは目的関数への正則化を追加せず、また特定のアドバンテージ推定器に依存しないため、汎用的に適用できる。
- 理論的には、1ステップあたりのエントロピー変化をアドバンテージ分布に結び付け、既存のエントロピー維持系手法が長期学習で不安定化しやすい理由を説明している。
- 実験では、Entrocraftにより性能飽和を抑制でき、一般化性能・出力多様性・長期学習が改善し、4Bモデルが8Bベースラインを上回り、さらにpass@Kがベースライン比で50%向上した。




