MAR-GRPO:AR拡散ハイブリッド画像生成のための安定化GRPO

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ハイブリッド自己回帰(AR)-拡散(diffusion)による画像生成に強化学習(RL)を適用すると不安定になる理由を、インタリーブ推論中に拡散成分が引き起こすノイズの多い対数確率勾配に着目して分析する。
  • 論文では、拡散の複数軌道にわたって平均化し勾配ノイズを低減するためのマルチトラジェクトリ期待値(MTE)を用いた、マスク付き自己回帰モデル向けの安定化RL学習フレームワーク「MAR-GRPO」を提案する。
  • 過度な平滑化を防ぐため、複数軌道からトークンごとの不確実性を推定し、その中でも最も不確実性が高い上位k%のトークンに対してのみマルチトラジェクトリ最適化を適用する。
  • さらに、最終的に生成される内容と整合していないARトークンを除外するための、整合性を考慮したトークン選択戦略を導入する。
  • 複数のベンチマークにおける実験では、GRPOや事前RLベースラインと比べて、視覚品質、学習安定性、空間構造の理解が向上し、コードはGitHubで公開されている。

Abstract

強化学習(RL)は、自己回帰(AR)モデルや拡散モデルにうまく適用されてきました。しかし、ハイブリッドAR-拡散フレームワークへRLを拡張することは、推論が交互に行われることや対数尤度の推定がノイジーであることにより、依然として難しい課題です。本研究では、マスク付き自己回帰モデル(MAR)を検討し、拡散ヘッドが学習ダイナミクスにおいて重要な役割を果たしていることを示します。拡散ヘッドはしばしばノイジーな勾配を導入し、不安定性や初期段階での性能飽和につながります。この問題に対処するため、MAR向けの安定化されたRLフレームワークを提案します。複数軌道期待(MTE)を導入し、複数の拡散軌道にわたって平均を取ることで最適化の方向を推定し、拡散に起因する勾配ノイズを低減します。過度な平滑化を避けるために、さらに複数軌道からトークンごとの不確実性を推定し、多軌道最適化を不確実性が上位k%のトークンにのみ適用します。加えて、最終的に生成される内容との整合性がより低いARトークンを除外する、整合性を意識したトークン選択戦略も導入します。複数のベンチマークにわたる大規模な実験により、本手法がベースラインのGRPOおよび事前RLモデルに比べて、視覚品質、学習安定性、そして空間構造の理解を一貫して向上させることを示します。コードは以下で公開されています: https://github.com/AMAP-ML/mar-grpo.