MAR-GRPO:AR拡散ハイブリッド画像生成のための安定化GRPO
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ハイブリッド自己回帰(AR)-拡散(diffusion)による画像生成に強化学習(RL)を適用すると不安定になる理由を、インタリーブ推論中に拡散成分が引き起こすノイズの多い対数確率勾配に着目して分析する。
- 論文では、拡散の複数軌道にわたって平均化し勾配ノイズを低減するためのマルチトラジェクトリ期待値(MTE)を用いた、マスク付き自己回帰モデル向けの安定化RL学習フレームワーク「MAR-GRPO」を提案する。
- 過度な平滑化を防ぐため、複数軌道からトークンごとの不確実性を推定し、その中でも最も不確実性が高い上位k%のトークンに対してのみマルチトラジェクトリ最適化を適用する。
- さらに、最終的に生成される内容と整合していないARトークンを除外するための、整合性を考慮したトークン選択戦略を導入する。
- 複数のベンチマークにおける実験では、GRPOや事前RLベースラインと比べて、視覚品質、学習安定性、空間構造の理解が向上し、コードはGitHubで公開されている。



