再生成による洗練:修正空間を拡大することで統一型マルチモーダル・モデルの画像リファインを向上
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 統一型マルチモーダル・モデルはテキストから画像(T2I)を生成した後に出力を洗練できるが、既存手法の多くは「編集による洗練(RvE)」に基づいており、編集指示が粗いため意味的なズレが十分に直らないことがある。
- さらにRvEではピクセル単位の内容保持を厳しく課すため、有効な修正空間が制限され、誤りの修正性能が下がりやすい。
- 本論文はRefinement via Regeneration(RvR)を提案し、洗練を明示的な編集指示に頼るのではなく、ターゲットプロンプトと初期画像のセマンティックトークンに条件付けた画像再生成として再定義する。
- 実験ではRvRが複数のベンチマークで大幅に改善し、Genevalは0.78から0.91へ、DPGBenchは84.02から87.21へ、UniGenBench++は61.53から77.41へ向上した。
- 要するに、再生成によって修正空間を広げることで、統一型マルチモーダルの画像リファインにおける性能上限を押し上げられることが示唆される。



