概要: 強化学習(RL)は大規模言語モデル(LLMs)の推論力を高めるための主要なアプローチとなっていますが、スケーラブルな学習はしばしば方策エントロピーの急速な崩壊によって妨げられます。これにより、早期の収束と性能の飽和が引き起こされます。本論文では、エントロピー制御の2つの戦略、すなわち従来のエントロピー正則化と、近年提案された共分散ベースのメカニズムについて、比較的な理論解析を提示します。ソフトマックスのパラメータ化の下でのエントロピー動力学に関する統一的な枠組みを確立し、エントロピーの変化が対数確率とロジット更新の間の共分散によって支配されることを示します。解析の結果、従来のエントロピー正則化は、定常状態の条件を変更する密で持続的なバイアスを導入し、その結果として最適でない方策につながることが分かりました。一方で、共分散ベースの手法は、高い共分散を持つトークンの疎な部分集合に対してのみ選択的に正則化を行い、正則化係数をアニーリングすると漸近的にバイアスがない状態(asymptotic unbiasedness)を達成します。これらの結果は、LLMの事後学習(posttraining)におけるエントロピー制御のための原理に基づく指針を提供するものであり、より大きなモデルや、より複雑な推論タスクへRLをスケールすることに対する含意も示します。
強化学習におけるエントロピー制御手法の比較的理論分析
arXiv cs.LG / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文は、LLMの推論向上に用いられる強化学習で起きる「政策エントロピーの急速な崩壊」が、早期収束や性能飽和を招く問題だとして整理している。
- エントロピー制御の2手法(従来のエントロピー正則化と、提案された共分散ベース機構)を、softmaxパラメータ化の下でエントロピー動力学を統一的に記述する枠組みで比較している。
- エントロピー変化が「log-probabilities」と「logit updates」の共分散により決まることを示し、従来手法は定常条件を恒常的に偏らせるため準最適なポリシーにつながり得ると結論づけている。
- 共分散ベース手法は高い共分散を持つトークンの一部に選択的に正則化を行い、正則化係数をアニーリングすれば漸近的にバイアスが消える(漸近無偏)ことを理論的に示している。
- 本研究は、LLMのposttrainingにおけるエントロピー制御の指針を与え、より大規模モデルや複雑な推論タスクへのスケーリングに示唆を与えるとしている。




