広告

ShapE-GRPO:複数候補LLM学習のためのシャプレイ強化報酬割当(Shapley-Enhanced Reward Allocation)

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数候補のLLM学習に向けた、グループ相対ポリシー最適化(Group Relative Policy Optimization)のシャプレイ値強化バリアントであるShapE-GRPOを提案する。ここでの目的は、個々の候補の品質を最大化することではなく、集合(セット)レベルのユーティリティを最大化することである。
  • 既存のGRPO型手法では、すべての候補に対して同一のスカラー報酬が与えられるため、勾配がノイジーになり、より弱い候補が強い候補の報酬を「フリーライド」できてしまうと主張する。
  • ShapE-GRPOは、協力ゲーム理論の定式化により、集合レベルの報酬を候補固有の信号へ分解する。シャプレイ値の公理を維持しつつ、計算量を多項式時間に抑え、効率性を保つ。
  • 複数のデータセットでの実験により、標準GRPOに対して一貫した改善が示され、学習中の収束がより速いことも確認された。

広告