広告

分離したアドバンテージ正規化による安定化されたルーブリック統合トレーニング

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 研究者らは、プロセス段階の評価をGRPOに統合する手法としてProcess-Aware Policy Optimization(PAPO)を提案し、既存報酬設計の2つの弱点に対処すると述べています。
  • PAPOは、最終回答の正しさを担うアウトカム成分Aout(ORM由来)と、推論の質を担うプロセス成分Aproc(ルーブリックPRM由来)を「別々に正規化」して合成することで、アウトカムの優位信号の弱まりとプロセス報酬の報酬ハッキングを同時に抑える設計です。
  • Aoutは全応答に対して正規化し、Aprocは正解応答のみに対して正規化することで、最終正解の学習アンカーを崩さずに推論品質を分別できると説明しています。
  • 複数のモデル規模と6つのベンチマークでPAPOが一貫してORMを上回り、OlympiadBenchで51.3%対46.3%を達成したほか、ORMが頭打ちや低下に入った後も改善が続くと報告されています。

広告