広範な探索から安定した合成へ:自己回帰画像生成のためのエントロピー誘導最適化

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己回帰型のテキストから画像への生成において、Chain-of-Thought(CoT)による探索と強化学習(RL)による最適化がどのように相互作用するかを分析し、探索がトークン空間を拡張しながらRLは高い報酬領域へ向けて絞り込むことを示す。
  • 最終報酬は、画像トークンのエントロピーの平均および分散の両方と強く負の相関を示し、より良い結果のためには不確実性/不安定性を低減することが重要であることが分かる。
  • 著者らは、テキスト上のCoTの意味のエントロピーが、下流の画像品質を有意に左右することを示し、エントロピーの低いCoTほどより良い生成が得られる。
  • これらの知見に基づき、Entropy-Guided Group Relative Policy Optimization(EG-GRPO)を提案する。これは、報酬駆動の更新から低エントロピーのトークンを除外して微調整の更新を調整し、さらに高エントロピーのトークンにはエントロピー・ボーナスを追加する。
  • 標準的なテキストから画像のベンチマークにおける実験では、EG-GRPOが最先端の性能を報告しており、エントロピー誘導による最適化が安定性と生成品質の向上につながることを示している。

Abstract

Chain-of-Thought(CoT)と強化学習(RL)を組み合わせることで、テキスト・ツー・イメージ(T2I)生成が改善されますが、CoTの探索とRLの最適化の間で実際にどのような相互作用が起きているのかは依然として不明です。本稿では、系統的なエントロピーに基づく分析を提示し、3つの重要な洞察を導きます:(1)CoTは生成の探索空間を拡張する一方で、RLは高い報酬領域へとそれを収縮させます;(2)最終報酬は、画像トークンのエントロピーの平均および分散の両方と強い負の相関を示し、不確実性と不安定性を低減する必要性を明確にします;そして(3)テキスト上のCoTのエントロピーは、下流の画像品質を直接的に支配し、エントロピーが低いCoTほどより良い生成につながります。これらの知見に動機づけられ、我々は、不確実性によって最適化予算を再配分する微調整戦略であるEntropy-Guided Group Relative Policy Optimization(EG-GRPO)を提案します。低エントロピーのトークンは、安定性を維持するために報酬駆動の更新から除外されます。一方で高エントロピーのトークンにはエントロピー・ボーナスが付与され、崩壊(collapse)なしに構造化された探索を促します。標準的なT2Iベンチマークに対する実験により、EG-GRPOが先端(state-of-the-art)の性能を達成することを示します。