トークンレベル・ポリシー最適化：シーケンスレベルの尤度によってグループレベル報酬をトークンレベル集約に結び付ける

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、連鎖的思考（chain-of-thought）の数学的推論で一般的なトークンレベルの疎な報酬設定下において、LLMのグループ相対ポリシー最適化（GRPO）を改善するためのTEPO（Token-Level Policy Optimization）を提案する。
TEPOは、シーケンスレベルの尤度を用いてトークン更新を集約することで、グループレベルの報酬をトークンレベルの学習へと結び付け、学習中にトークン報酬がどのように割り当てられるかという問題に対処する。
さらに、正のアドバンテージを持つトークンに対して、エントロピーが減少するにつれて適用されるトークンレベルのKLダイバージェンス・マスク制約を追加し、エントロピーの崩壊や性能劣化につながる急激なポリシー更新を防ぐことを狙う。
実験では、数学的推論ベンチマークにおいて最先端の結果を報告し、学習安定性が向上したことを示す。さらに、GRPO/DAPOに比べて収束時間を50%削減したと主張している。

概要: 群相対方策最適化（Group Relative Policy Optimization, GRPO）は、大規模言語モデル（LLM）の推論能力、特に数学的推論性能を大きく前進させてきました。しかし、GRPOおよび関連するエントロピー正則化手法は、連鎖思考（CoT）推論に固有の課題であるトークンレベルの疎なリワードに対して、いまだに苦戦しています。これらの手法はしばしば、差分のつかないトークンレベルのエントロピー正則化に依存しており、疎なトークン報酬のもとではエントロピーの崩壊やモデルの劣化を容易に引き起こします。本研究では、(1) トークンレベルの集約を通じて、配列レベルの尤度を用いてグループレベルのリワードと個々のトークンを結び付け、(2) 正のアドバンテージを持つトークンで、かつエントロピーが減少しているものを対象とするトークンレベルのKLダイバージェンス・マスク制約を導入する、新しいトークンレベルの枠組みTEPOを提案します。実験の結果、TEPOは数学的推論ベンチマークにおいて最先端の性能を達成するだけでなく、学習の安定性も大幅に向上し、GRPO/DAPOと比較して収束時間を50%短縮することが示されました。

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

日経XTECH

トークンレベル・ポリシー最適化：シーケンスレベルの尤度によってグループレベル報酬をトークンレベル集約に結び付ける

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か 下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修