広範な探索から安定した合成へ:自己回帰画像生成のためのエントロピー誘導最適化
arXiv cs.LG / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己回帰型のテキストから画像への生成において、Chain-of-Thought(CoT)による探索と強化学習(RL)による最適化がどのように相互作用するかを分析し、探索がトークン空間を拡張しながらRLは高い報酬領域へ向けて絞り込むことを示す。
- 最終報酬は、画像トークンのエントロピーの平均および分散の両方と強く負の相関を示し、より良い結果のためには不確実性/不安定性を低減することが重要であることが分かる。
- 著者らは、テキスト上のCoTの意味のエントロピーが、下流の画像品質を有意に左右することを示し、エントロピーの低いCoTほどより良い生成が得られる。
- これらの知見に基づき、Entropy-Guided Group Relative Policy Optimization(EG-GRPO)を提案する。これは、報酬駆動の更新から低エントロピーのトークンを除外して微調整の更新を調整し、さらに高エントロピーのトークンにはエントロピー・ボーナスを追加する。
- 標準的なテキストから画像のベンチマークにおける実験では、EG-GRPOが最先端の性能を報告しており、エントロピー誘導による最適化が安定性と生成品質の向上につながることを示している。




