GRPOが真のon-policyになれない理由 —— 訓練・推論の不一致の根底にあるロジック

Zenn / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • GRPOを「真のon-policy」とみなすには、訓練時と推論時で使う意思決定(行動選択)ロジックが一致している必要がある、という前提を置く。
  • 訓練・推論の不一致は、GRPOが最適化している分布/目的関数の性質と、実際のon-policy実行で期待される分布が噛み合わない点に根底がある。
  • その結果、GRPOはon-policyらしさを部分的に満たしつつも、厳密な意味でのon-policy学習にはなっていない、という理屈が整理される。
  • 「真のon-policy」の定義と、GRPOの実装上の学習ダイナミクス(サンプリング・重み付け・目的関数)を対応づける観点で論じている。
こんにちは、韓国産ジャガイモです。 先日、NVIDIAで働いている大学の研究室の先輩と、久しぶりにオンラインで飲んでいたときのことです。近況報告もそこそこに、話題は自然と最近のLLM事情へと移りました。 私が「最近、私GRPOベースのon-policy強化学習を組んでるんですよ」と誇らしげに語ると、画面越しの先輩はビール片手にニヤリと笑って、こう切り返してきました。 先輩:「お、いいね。でもお前、それ『on-policy』って言ってるけど、サンプリング時のポリシーと更新時のポリシーが完全に一致してるって、胸を張って保証できるの?」 私:「え、そりゃできますよ。イテレーションごとにちゃんと...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →