ShapE-GRPO:複数候補LLM学習のためのシャプレイ強化報酬割当(Shapley-Enhanced Reward Allocation)
arXiv cs.AI / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数候補のLLM学習に向けた、グループ相対ポリシー最適化(Group Relative Policy Optimization)のシャプレイ値強化バリアントであるShapE-GRPOを提案する。ここでの目的は、個々の候補の品質を最大化することではなく、集合(セット)レベルのユーティリティを最大化することである。
- 既存のGRPO型手法では、すべての候補に対して同一のスカラー報酬が与えられるため、勾配がノイジーになり、より弱い候補が強い候補の報酬を「フリーライド」できてしまうと主張する。
- ShapE-GRPOは、協力ゲーム理論の定式化により、集合レベルの報酬を候補固有の信号へ分解する。シャプレイ値の公理を維持しつつ、計算量を多項式時間に抑え、効率性を保つ。
- 複数のデータセットでの実験により、標準GRPOに対して一貫した改善が示され、学習中の収束がより速いことも確認された。




