V-GRPO：ノイズ除去型生成モデルのオンライン強化学習は思ったより簡単

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

V-GRPO（Variational GRPO）は、減衰（denoising）の生成拡散モデルを嗜好や検証可能な報酬に合わせるためのオンライン強化学習において、尤度が扱いづらいことを回避しつつ解決を図ります。
著者らは、ELBO（evidence lower bound）に基づく尤度サロゲート手法でも、サロゲートの分散を抑え、勾配ステップを制御することで安定かつ効率的にできることを示します。
V-GRPOは、ELBOベースのサロゲートとGroup Relative Policy Optimization（GRPO）を統合し、さらにシンプルだが重要な実装上の工夫を追加します。
実験では、V-GRPOがテキストから画像生成で最先端の性能を達成し、計算効率面でもMixGRPOに対して約2倍、DiffusionNFTに対して約3倍の高速化を示します。
この手法は実装が容易で、事前学習の目的に整合し、サンプリング軌跡をMDPとして最適化する方式に伴う非効率性を回避することを狙っています。