概要: 合成的なテキスト・ツー・イメージ(T2I)生成では、画像の異なる領域を記述する複数のサブプロンプトを、モデルが確実に反映する必要があります。近年の研究により、拡散モデルの「mph{開始ノイズ}」には重要な意味情報が含まれていることが示されています。すなわち、テキストから予測される「``黄金''」ノイズは、プロンプトの忠実度を大きく高め得るのです。しかし本研究では、このノイズ予測が根本的にグローバルであることを観察します。すなわち、同一のネットワークに対して、単一のテキスト埋め込みを用いて、長く複数領域にまたがるプロンプトを要約させるため、プロンプトが空間的に離れた実体を含む場合にボトルネックになります。そこで我々は、凍結したNPNetを拡張する地域(リージョン)対応のノイズ予測器である extbf{Golden RPG} を提案します。提案では、2つの学習可能な追加要素を導入します:(i) 各サブプロンプトに応じて予測ノイズを再形成する、領域ごとの extbf{FiLM adapter}。そして (ii) Swinバックボーンの2つの段階の間に注入される extbf{Region Cross-Attention} 層であり、異なる空間位置が異なるサブプロンプトトークンに注目できるようにします。地域条件付けが、すでにプロンプトが簡単なサンプルの品質を損なうことを防ぐため、さらに extbf{Confidence-Adaptive Blending} ヘッドを提案し、各サンプルに対して、地域信号がグローバル信号をどれほど強く上書きすべきかを動的に予測します。評価は、元のRPGベンチマーク(20プロンプト、100サンプル)と、T2I-CompBenchの4つのマルチ領域カテゴリ(1{,}200画像、6つの競合手法)で行います。Golden RPGは、すべてのカテゴリにおいて最も高いCross-Region-Coherenceスコアを達成し、絶対的なCLIP-ScoreおよびCLIP-IQAでは最強のベースラインと同等の性能を維持します。さらに、ペアのユーザースタディにより、最強ベースラインに対してoldsymbol{ extasciitilde}67 ext{%}の選好が示されます。アダプタは約 extasciitilde2Mの学習可能パラメータを含み、SDXLに対して推論オーバーヘッドをわずか0.6秒だけ追加します。
Golden RPG:合成(コンポジショナル)テキストから画像生成のための信頼度適応・領域対応ノイズ
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、複数のサブプロンプトが空間的に離れた領域を指定する場合でもプロンプト整合性を高める、合成(コンポジショナル)テキスト→画像生成向けの領域対応ノイズ予測手法「Golden RPG」を提案します。
- Golden RPGは、凍結済みのNPNetに対し、サブプロンプトごとに予測ノイズを整える領域別FiLMアダプタと、画像中の異なる位置が異なるサブプロンプトトークンに注目できるRegion Cross-Attention層を追加します。
- 領域条件付けがすでに扱いやすいプロンプトの生成品質を損なわないように、Confidence-Adaptive Blendingヘッドで、サンプルごとに領域信号がグローバル信号を上書きする強さを動的に調整します。
- RPG(20プロンプト)およびT2I-CompBench(1,200画像)での評価では、Golden RPGがすべてのカテゴリで最良のクロス領域コヒーレンスを達成しつつ、CLIP系品質指標では最強ベースラインに匹敵することを示します。
- 2M程度の学習可能パラメータと、SDXL上に加えて約0.6秒の推論オーバーヘッドに抑えられています。


