MCPO:大規模推論モデルのマスタリー統合ポリシー最適化
arXiv cs.AI / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論LLMのRLVR学習におけるGRPO型手法の限界を、特に「マスタード(習得済み)」および「多数正解」プロンプトでの学習信号の弱まりや消失に焦点を当てて整理する。
- 提案手法は、マスタードプロンプトのみに適用するヒンジKL正則化により、連続する勾配ステップ間の有害なポリシードリフトや忘却を抑えるMCPO(Mastery-Consolidated Policy Optimization)である。
- さらに、部分的に正しい状態から完全なマスタリーへと統合するために「多数正解」プロンプトを優先する重み付け戦略を導入する。
- 3つの数学ベンチマークでの実験では、MCPOがpass@1を一貫して改善し、直感に反してpass@kも向上することが示される(マスタリー統合が解の多様性を促進するため)。




