GRPOが真のon-policyになれない理由 —— 訓練・推論の不一致の根底にあるロジック

Zenn / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

GRPOを「真のon-policy」とみなすには、訓練時と推論時で使う意思決定（行動選択）ロジックが一致している必要がある、という前提を置く。
訓練・推論の不一致は、GRPOが最適化している分布／目的関数の性質と、実際のon-policy実行で期待される分布が噛み合わない点に根底がある。
その結果、GRPOはon-policyらしさを部分的に満たしつつも、厳密な意味でのon-policy学習にはなっていない、という理屈が整理される。
「真のon-policy」の定義と、GRPOの実装上の学習ダイナミクス（サンプリング・重み付け・目的関数）を対応づける観点で論じている。

こんにちは、韓国産ジャガイモです。先日、NVIDIAで働いている大学の研究室の先輩と、久しぶりにオンラインで飲んでいたときのことです。近況報告もそこそこに、話題は自然と最近のLLM事情へと移りました。私が「最近、私GRPOベースのon-policy強化学習を組んでるんですよ」と誇らしげに語ると、画面越しの先輩はビール片手にニヤリと笑って、こう切り返してきました。先輩：「お、いいね。でもお前、それ『on-policy』って言ってるけど、サンプリング時のポリシーと更新時のポリシーが完全に一致してるって、胸を張って保証できるの？」私：「え、そりゃできますよ。イテレーションごとにちゃんと...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

生成的UIでインタラクティブエージェントを作る

The Batch

トヨタ「世界最高水準」VLM外販、ウーブン豊田大輔氏「AIが街を理解」

日経XTECH

3つどもえの激しい主権争い続くAI、最も勢いがあるのはGemini

日経XTECH

生成AIで進む業務効率化人員削減する米国、仕事が減らない日本

日経XTECH

AIエージェントに2019年式の“資格情報”を付けるのをやめよう

Dev.to

GRPOが真のon-policyになれない理由 —— 訓練・推論の不一致の根底にあるロジック

要点

関連記事

生成的UIでインタラクティブエージェントを作る

トヨタ「世界最高水準」VLM外販、ウーブン豊田大輔氏「AIが街を理解」

3つどもえの激しい主権争い続くAI、最も勢いがあるのはGemini

生成AIで進む業務効率化人員削減する米国、仕事が減らない日本

AIエージェントに2019年式の“資格情報”を付けるのをやめよう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成的UIでインタラクティブエージェントを作る

トヨタ「世界最高水準」VLM外販、ウーブン豊田大輔氏「AIが街を理解」

3つどもえの激しい主権争い続くAI、最も勢いがあるのはGemini

生成AIで進む業務効率化 人員削減する米国、仕事が減らない日本

AIエージェントに2019年式の“資格情報”を付けるのをやめよう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

生成AIで進む業務効率化人員削減する米国、仕事が減らない日本