MCPO：大規模推論モデルのマスタリー統合ポリシー最適化

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模推論LLMのRLVR学習におけるGRPO型手法の限界を、特に「マスタード（習得済み）」および「多数正解」プロンプトでの学習信号の弱まりや消失に焦点を当てて整理する。
提案手法は、マスタードプロンプトのみに適用するヒンジKL正則化により、連続する勾配ステップ間の有害なポリシードリフトや忘却を抑えるMCPO（Mastery-Consolidated Policy Optimization）である。
さらに、部分的に正しい状態から完全なマスタリーへと統合するために「多数正解」プロンプトを優先する重み付け戦略を導入する。
3つの数学ベンチマークでの実験では、MCPOがpass@1を一貫して改善し、直感に反してpass@kも向上することが示される（マスタリー統合が解の多様性を促進するため）。