要旨: 強化学習における検証可能な報酬(RLVR)は、大規模言語モデル(LLM)の推論能力を大幅に改善した。しかし、その疎な「結果(アウトカム)ベース」の報酬は、根本的なクレジット割当(credit assignment)問題を引き起こす。われわれは、この問題を報酬の極性(polarity)とトークンのエントロピー(token entropy)の両面から分析する。診断ツールである「Four Quadrant Decomposition(四象限分解)」は、極性とエントロピーによってトークン更新を分離し、制御されたアブレーションにより、推論の改善が高エントロピーの象限に集中していることを示す。この観察を理論的に正当化するため、われわれは条件付き相互情報量(Conditional Mutual Information)を自己回帰的なRLVR設定へ適応し、トークンが担いうるクレジットはそのエントロピーによって上界づけられることを証明する。この見方により、推論の向上は主として高エントロピーのトークンから生じること、そして正の更新と負の更新にはそれぞれ固有の役割があることを、検証可能な予測として導く。GRPOの勾配解析により、さらに、報酬の一様なブロードキャストが高エントロピー位置でシグナルを希釈する一方で、決定的(deterministic)なトークンに過大なクレジットを与えることが明らかになる。これらの洞察に基づき、トークンレベルの学習信号をそれに応じて調整する「Entropy-Aware Policy Optimization(EAPO;エントロピーに配慮した方策最適化)」を提案する。大規模な実験により、EAPOは2つのモデル系統において強力なベースラインを上回ることを示す。
RLVRにおけるトークンレベルのクレジット割当を再考:極性—エントロピー分析
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、疎で結果に基づく報酬のためにLLMの各トークンが正確な学習信号を受け取りにくいRLVRにおける、トークンレベルのクレジット割当問題を検討する。
- それに対し、報酬の極性とトークンのエントロピーを用いる「4象限分解(Four Quadrant Decomposition)」の診断法を導入し、トークン更新が推論上の利益とどのように結びつくかを切り分ける。
- アブレーション実験と理論により、著者らはトークンのクレジット能力はエントロピーによって上限が決まると主張し、推論の改善は主に高エントロピーのトークンによってもたらされることを予測する。さらに、正の更新と負の更新で挙動が異なることを示す。
- GRPOの勾配解析では、報酬を一様にブロードキャストすると高エントロピー位置で学習信号が弱まり、より決定的なトークンに過剰にクレジットを与えてしまうことを明らかにする。
- これらの知見に基づき、提案手法のEntropy-Aware Policy Optimization(EAPO)はトークンレベルの学習信号を調整し、2つのモデル系統において強力なベースラインを上回る性能を示す。




