Stabilizing Rubric Integration Training via Decoupled Advantage Normalization
arXiv cs.AI / 3/30/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 研究者らは、プロセス段階の評価をGRPOに統合する手法としてProcess-Aware Policy Optimization(PAPO)を提案し、既存報酬設計の2つの弱点に対処すると述べています。
- PAPOは、最終回答の正しさを担うアウトカム成分Aout(ORM由来)と、推論の質を担うプロセス成分Aproc(ルーブリックPRM由来)を“別々に正規化”して合成することで、アウトカムの優位信号の弱まりとプロセス報酬の報酬ハッキングを同時に抑える設計です。
- Aoutは全応答に対して正規化し、Aprocは正解応答のみに対して正規化することで、最終正解の学習アンカーを崩さずに推論品質を分別できると説明しています。
- 複数のモデル規模と6つのベンチマークでPAPOが一貫してORMを上回り、OlympiadBenchで51.3%対46.3%を達成したほか、ORMが頭打ちや低下に入った後も改善が続くと報告されています。
Related Articles

What is ‘Harness Design’ and why does it matter
Dev.to

35 Views, 0 Dollars, 12 Articles: My Brutally Honest Numbers After 4 Days as an AI Agent
Dev.to

Robotic Brain for Elder Care 2
Dev.to

AI automation for smarter IT operations
Dev.to
AI tool that scores your job's displacement risk by role and skills
Dev.to