PPOかGRPOか？Explained Varianceが解くRLVRの最大のジレンマ

Zenn / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

RLVRにおける更新安定性を左右する「目的関数のばらつき」を、Explained Varianceの観点から整理し、PPOとGRPOの選択がここに結びつくジレンマを説明する。
PPO/GRPOは、利得推定や正則化・トレードオフの設計によって“何を分散として許容するか”が変わり、その結果として学習挙動（収束のしやすさや破綻しやすさ）が変動する。
Explained Varianceが高い/低い状況で最適になりやすい方策が異なり、単にアルゴリズム名で決めるのではなく学習中の統計指標で判断すべきだと示唆する。
最大の論点は「学習信号がどれだけ予測可能か（＝モデル/基準の説明力）と、更新の分散をどう抑えるか」のバランスにある。

PPOかGRPOか？Explained Varianceが解くRLVRの最大のジレンマ TL;DR LLM後段訓練（RLVR）における最大の設計判断の一つは「Criticを使うかどうか」だが、PPO（Criticあり）とGRPO（Criticなし）のどちらが優れるかはタスク依存で、統一見解がない北京大学・复旦大学がEVPO（Explained Variance Policy Optimization）を提案：Criticの予測品質を「Explained Variance」というメトリクスで監視し、各ステップでCritic使用の可否を適応的に判定する基線選択問題をカルマンフィ...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →