RLVRにおけるトークンレベルのクレジット割当を再考：極性—エントロピー分析

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、疎で結果に基づく報酬のためにLLMの各トークンが正確な学習信号を受け取りにくいRLVRにおける、トークンレベルのクレジット割当問題を検討する。
それに対し、報酬の極性とトークンのエントロピーを用いる「4象限分解（Four Quadrant Decomposition）」の診断法を導入し、トークン更新が推論上の利益とどのように結びつくかを切り分ける。
アブレーション実験と理論により、著者らはトークンのクレジット能力はエントロピーによって上限が決まると主張し、推論の改善は主に高エントロピーのトークンによってもたらされることを予測する。さらに、正の更新と負の更新で挙動が異なることを示す。
GRPOの勾配解析では、報酬を一様にブロードキャストすると高エントロピー位置で学習信号が弱まり、より決定的なトークンに過剰にクレジットを与えてしまうことを明らかにする。
これらの知見に基づき、提案手法のEntropy-Aware Policy Optimization（EAPO）はトークンレベルの学習信号を調整し、2つのモデル系統において強力なベースラインを上回る性能を示す。

要旨: 強化学習における検証可能な報酬（RLVR）は、大規模言語モデル（LLM）の推論能力を大幅に改善した。しかし、その疎な「結果（アウトカム）ベース」の報酬は、根本的なクレジット割当（credit assignment）問題を引き起こす。われわれは、この問題を報酬の極性（polarity）とトークンのエントロピー（token entropy）の両面から分析する。診断ツールである「Four Quadrant Decomposition（四象限分解）」は、極性とエントロピーによってトークン更新を分離し、制御されたアブレーションにより、推論の改善が高エントロピーの象限に集中していることを示す。この観察を理論的に正当化するため、われわれは条件付き相互情報量（Conditional Mutual Information）を自己回帰的なRLVR設定へ適応し、トークンが担いうるクレジットはそのエントロピーによって上界づけられることを証明する。この見方により、推論の向上は主として高エントロピーのトークンから生じること、そして正の更新と負の更新にはそれぞれ固有の役割があることを、検証可能な予測として導く。GRPOの勾配解析により、さらに、報酬の一様なブロードキャストが高エントロピー位置でシグナルを希釈する一方で、決定的（deterministic）なトークンに過大なクレジットを与えることが明らかになる。これらの洞察に基づき、トークンレベルの学習信号をそれに応じて調整する「Entropy-Aware Policy Optimization（EAPO；エントロピーに配慮した方策最適化）」を提案する。大規模な実験により、EAPOは2つのモデル系統において強力なベースラインを上回ることを示す。

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

RLVRにおけるトークンレベルのクレジット割当を再考：極性—エントロピー分析

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演