要旨: 条件付き離散生成モデルは、複数の入力条件を忠実に合成することが難しい。これに対処するために、離散確率的生成プロセスを合成するための、理論的根拠に基づいた定式化を導出する。これは、マスク付き生成(吸収拡散)を特別な場合として含む。我々の定式化により、学習データの外側にある新しい組み合わせや入力条件の数を、条件ごとの重み付けによって個々の条件の強調または否定を可能にしつつ、正確に指定できる。VQ-VAEおよびVQ-GANの、豊かに合成可能な学習語彙と相乗的に働くことで、本手法は、3つのデータセット(positional CLEVR、relational CLEVR、FFHQ)にわたって平均したところ、従来の最先端手法に比べて誤り率を63.4\%相対的に減少させると同時に、平均絶対FIDの改善が-9.58となる。一方で、本手法は同等の手法に対してリアルタイム速度を2.3\times〜12\times向上させ、テキストから画像への生成を、きめ細かく制御するために、公開されている事前学習済みの離散テキスト-to-画像モデルへ容易に適用できる。
合成された並列トークン予測による制御可能な画像生成
arXiv cs.LG / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、条件付き離散生成プロセスを合成するための理論的に裏付けられた枠組みを提案しており、マスク付き生成/吸収拡散をその特殊なケースとして扱う。
- 学習データに見られない入力条件の新しい組み合わせや個数に対しても、概念の重み付けによる特定条件の強調や否定を含め、正確な制御を可能にする。
- VQ-VAEとVQ-GANに基づく合成的な離散語彙を用いることで、CLEVRの各バリアントとFFHQにおいて、従来の最先端手法に比べてエラー率を63.4%低減し、FIDを平均絶対値で-9.58改善する。
- さらに、本手法は比較可能な手法に対してリアルタイム速度を2.3倍から12倍まで向上させることを報告しており、オープンな事前学習済み離散テキストから画像モデルを微調整することで、きめ細かなテキスト/画像制御への適用可能性も示す。



