インスタンスおよび分布レベルの報酬による自己回帰型画像モデルの方策ベース調整

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自己回帰型画像生成のための軽量な強化学習フレームワークを提案し、トークンベースの合成をマルコフ決定過程として定式化し、Group Relative Policy Optimization（GRPO）で最適化する。
分布レベルのLeave-One-Out FID（LOO-FID）報酬を、特徴モーメントの指数移動平均を用いて計算し、多様性を明示的に促進しつつモード崩壊を抑える。これは、インスタンスのみの報酬によるRLが抱える欠点に対処するもの。
本手法は、分布レベルの多様性報酬に加えて、CLIPおよびHPSv2による複合的なインスタンスレベル報酬を組み合わせ、意味論的・知覚的な忠実性を維持する。
さらに、多目的最適化のための学習を、適応的なエントロピー正則化項によって安定化する。
LlamaGenおよびVQGANでの実験では、数百回程度のチューニング反復のみで品質と多様性の指標が改善され、Classifier-Free Guidanceなしでも競争力のある結果が得られ、推論コストも削減される。