GRPOが真のon-policyになれない理由 —— 訓練・推論の不一致の根底にあるロジック
Zenn / 2026/5/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- GRPOを「真のon-policy」とみなすには、訓練時と推論時で使う意思決定(行動選択)ロジックが一致している必要がある、という前提を置く。
- 訓練・推論の不一致は、GRPOが最適化している分布/目的関数の性質と、実際のon-policy実行で期待される分布が噛み合わない点に根底がある。
- その結果、GRPOはon-policyらしさを部分的に満たしつつも、厳密な意味でのon-policy学習にはなっていない、という理屈が整理される。
- 「真のon-policy」の定義と、GRPOの実装上の学習ダイナミクス(サンプリング・重み付け・目的関数)を対応づける観点で論じている。
こんにちは、韓国産ジャガイモです。
先日、NVIDIAで働いている大学の研究室の先輩と、久しぶりにオンラインで飲んでいたときのことです。近況報告もそこそこに、話題は自然と最近のLLM事情へと移りました。
私が「最近、私GRPOベースのon-policy強化学習を組んでるんですよ」と誇らしげに語ると、画面越しの先輩はビール片手にニヤリと笑って、こう切り返してきました。
先輩:「お、いいね。でもお前、それ『on-policy』って言ってるけど、サンプリング時のポリシーと更新時のポリシーが完全に一致してるって、胸を張って保証できるの?」
私:「え、そりゃできますよ。イテレーションごとにちゃんと...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



