再生成による洗練:修正空間を拡大することで統一型マルチモーダル・モデルの画像リファインを向上

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 統一型マルチモーダル・モデルはテキストから画像(T2I)を生成した後に出力を洗練できるが、既存手法の多くは「編集による洗練(RvE)」に基づいており、編集指示が粗いため意味的なズレが十分に直らないことがある。
  • さらにRvEではピクセル単位の内容保持を厳しく課すため、有効な修正空間が制限され、誤りの修正性能が下がりやすい。
  • 本論文はRefinement via Regeneration(RvR)を提案し、洗練を明示的な編集指示に頼るのではなく、ターゲットプロンプトと初期画像のセマンティックトークンに条件付けた画像再生成として再定義する。
  • 実験ではRvRが複数のベンチマークで大幅に改善し、Genevalは0.78から0.91へ、DPGBenchは84.02から87.21へ、UniGenBench++は61.53から77.41へ向上した。
  • 要するに、再生成によって修正空間を広げることで、統一型マルチモーダルの画像リファインにおける性能上限を押し上げられることが示唆される。

Abstract

統合マルチモーダルモデル(UMM)は、視覚理解と生成を単一の枠組みの中に統合する。テキストから画像(T2I)課題において、この統合された能力によりUMMは、最初の生成後に出力を改良できる可能性があり、性能の上限を拡張しうる。現在のUMMベースの改良手法は主に、改良を編集で行う(RvE)というパラダイムに従っている。そこでは、UMMが編集指示を生成し、整合していない領域を修正しつつ、整合している内容を保持する。しかし、編集指示はしばしばプロンプトと画像の不一致を粗くしか記述できず、その結果、改良が不完全になる。さらに、編集に必要ではあるものの画素レベルの保持は、改良における有効な修正空間を不必要に狭めてしまう。これらの制約に対処するため、我々はRefinement via Regeneration(RvR、再生成による改良)を提案する。これは、改良を編集ではなく、条件付き画像再生成として言い換える新しい枠組みである。編集指示に依存したり、厳密な内容の保持を強制したりする代わりに、RvRは、ターゲットプロンプトと初期画像のセマンティック・トークンを条件として画像を再生成し、より大きな修正空間の中で、より完全なセマンティックな整合を実現する。大規模な実験によりRvRの有効性が示されており、Genevalは0.78から0.91へ、DPGBenchは84.02から87.21へ、UniGenBench++は61.53から77.41へと改善した。