LLMのRLにおける性能飽和を精密なエントロピー曲線制御で解決する

arXiv cs.LG / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMに対する強化学習(RL)が学習規模の拡大に伴って探索が制限され、性能が頭打ちになる主因としてエントロピー崩壊があると主張している。
  • その解決として、エントロピー崩壊を防ぐための正確なユーザー指定エントロピー・スケジュールを実現するEntrocraft(リジェクション・サンプリング手法)を提案している。
  • Entrocraftは目的関数への正則化を追加せず、また特定のアドバンテージ推定器に依存しないため、汎用的に適用できる。
  • 理論的には、1ステップあたりのエントロピー変化をアドバンテージ分布に結び付け、既存のエントロピー維持系手法が長期学習で不安定化しやすい理由を説明している。
  • 実験では、Entrocraftにより性能飽和を抑制でき、一般化性能・出力多様性・長期学習が改善し、4Bモデルが8Bベースラインを上回り、さらにpass@Kがベースライン比で50%向上した。

Abstract

強化学習(RL)は、大規模言語モデル(LLM)における複雑な推論能力を切り開いてきました。しかし、ほとんどのRLアルゴリズムは性能が飽和してしまい、RLトレーニングをスケールしてもこれ以上の向上が妨げられます。この問題は、RLにおける探索のための重要な診断指標であるエントロピーの崩壊として特徴づけられます。既存の試みでは、正則化やクリッピングによってエントロピーの崩壊を防ごうとしてきましたが、その結果得られるエントロピー曲線は、多くの場合長期的に不安定さを示し、性能向上を妨げます。本論文では、優位(advantage)分布にバイアスをかけることで、ユーザーがカスタマイズした任意のエントロピー・スケジュールを実現する、単純なリジェクション・サンプリング手法であるEntrocraftを提案します。Entrocraftは目的関数の正則化を必要とせず、優位推定器に依存しません。理論的には、最小限の仮定の下で、1ステップあたりのエントロピー変化を優位分布に関連づけます。これにより、既存のRLおよびエントロピー維持手法の挙動が説明できます。さらにEntrocraftはエントロピー・スケジュールの体系的な研究も可能にし、高い値から始めてわずかに低い目標へ減衰させる線形アニーリングが最も良いことを見いだします。実験的には、Entrocraftは性能飽和に対処し、汎化、出力の多様性、長期トレーニングを大きく改善します。これにより4Bモデルが8Bのベースラインを上回り、プラトーに至るまで最大4倍長く改善が持続し、ベースラインに対してpass@Kを50%引き上げます。