ShapE-GRPO：複数候補LLM学習のためのシャプレイ強化報酬割当（Shapley-Enhanced Reward Allocation）

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複数候補のLLM学習に向けた、グループ相対ポリシー最適化（Group Relative Policy Optimization）のシャプレイ値強化バリアントであるShapE-GRPOを提案する。ここでの目的は、個々の候補の品質を最大化することではなく、集合（セット）レベルのユーティリティを最大化することである。
既存のGRPO型手法では、すべての候補に対して同一のスカラー報酬が与えられるため、勾配がノイジーになり、より弱い候補が強い候補の報酬を「フリーライド」できてしまうと主張する。
ShapE-GRPOは、協力ゲーム理論の定式化により、集合レベルの報酬を候補固有の信号へ分解する。シャプレイ値の公理を維持しつつ、計算量を多項式時間に抑え、効率性を保つ。
複数のデータセットでの実験により、標準GRPOに対して一貫した改善が示され、学習中の収束がより速いことも確認された。