概要: 群相対方策最適化(Group Relative Policy Optimization, GRPO)は、大規模言語モデル(LLM)の推論能力、特に数学的推論性能を大きく前進させてきました。しかし、GRPOおよび関連するエントロピー正則化手法は、連鎖思考(CoT)推論に固有の課題であるトークンレベルの疎なリワードに対して、いまだに苦戦しています。これらの手法はしばしば、差分のつかないトークンレベルのエントロピー正則化に依存しており、疎なトークン報酬のもとではエントロピーの崩壊やモデルの劣化を容易に引き起こします。本研究では、(1) トークンレベルの集約を通じて、配列レベルの尤度を用いてグループレベルのリワードと個々のトークンを結び付け、(2) 正のアドバンテージを持つトークンで、かつエントロピーが減少しているものを対象とするトークンレベルのKLダイバージェンス・マスク制約を導入する、新しいトークンレベルの枠組みTEPOを提案します。実験の結果、TEPOは数学的推論ベンチマークにおいて最先端の性能を達成するだけでなく、学習の安定性も大幅に向上し、GRPO/DAPOと比較して収束時間を50%短縮することが示されました。
トークンレベル・ポリシー最適化:シーケンスレベルの尤度によってグループレベル報酬をトークンレベル集約に結び付ける
arXiv cs.CL / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、連鎖的思考(chain-of-thought)の数学的推論で一般的なトークンレベルの疎な報酬設定下において、LLMのグループ相対ポリシー最適化(GRPO)を改善するためのTEPO(Token-Level Policy Optimization)を提案する。
- TEPOは、シーケンスレベルの尤度を用いてトークン更新を集約することで、グループレベルの報酬をトークンレベルの学習へと結び付け、学習中にトークン報酬がどのように割り当てられるかという問題に対処する。
- さらに、正のアドバンテージを持つトークンに対して、エントロピーが減少するにつれて適用されるトークンレベルのKLダイバージェンス・マスク制約を追加し、エントロピーの崩壊や性能劣化につながる急激なポリシー更新を防ぐことを狙う。
- 実験では、数学的推論ベンチマークにおいて最先端の結果を報告し、学習安定性が向上したことを示す。さらに、GRPO/DAPOに比べて収束時間を50%削減したと主張している。



