広告

再結合のためのもつれ解き:主導型テキストから画像生成における類似性—制御性パラドックスの解決

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主導型テキストから画像生成を対象とし、「類似性—制御性パラドックス」すなわち、テキストによる制御を改善すると被写体のアイデンティティが損なわれる(そして逆も起こり得る)という問題に焦点を当てる。
  • このパラドックスは、テキストプロンプトが被写体アイデンティティと状況(コンテキスト)編集のための指示をしばしば混在させ、その結果生成時に競合する信号が生じることに起因すると主張する。
  • 提案するDisCoフレームワークは、参照画像から被写体アイデンティティのみを抽出(被写体エンティティ語を用いる)し、さらにプロンプトを代名詞を介して修正コマンドのみに簡略化することで、視覚的役割とテキスト的役割を切り離す。
  • 厳密な分離によって不自然な被写体—コンテキストの組み合わせが生じるのを防ぐため、この方法は専用の報酬信号を導入し、強化学習によって生成されたコンテキストとアイデンティティを再結合(re-couple)する。
  • 実験では最先端の結果が報告され、高い忠実度での被写体保持と、生成画像における正確なテキスト制御の両方を達成する。

Abstract

被写体主導のテキストから画像(T2I)生成は、テキストプロンプトに基づいてその文脈を編集しながら、被写体の同一性を保持することを目指します。この課題の中核となる問題は「類似性—制御性パラドックス」であり、テキストによる制御を強めるほど被写体の忠実性が低下し、その逆もまた起こるというものです。本研究では、このパラドックスがテキストプロンプトの役割が曖昧であることに起因すると主張します。すなわち、テキストプロンプトはしばしば「被写体の記述」と「望ましい変更」の両方を担うよう指示され、その結果、モデルに対して互いに矛盾する信号が与えられてしまいます。これを解決するために、まず視覚情報とテキスト情報を「分離し」、次にそれらを「再結合」する新しい枠組みDisCoを提案します。まず、テキスト—視覚のデカップリングモジュールにより情報源を分離します。被写体の同一性は、被写体の実体ワードを伴う参照画像からのみ抽出し、テキストプロンプトは変更指令のみを含むように単純化します。このとき、被写体は一般的な代名詞で表し、記述上の曖昧さを排除します。しかし、この厳密な分離は、被写体とその文脈との間に不自然な構図を引き起こし得ます。そこで、専用の報酬信号を設計し、強化学習を用いて、視覚的に定義された被写体と、テキストによって生成された文脈を自然に再結合します。提案手法はパラドックスを効果的に解決し、高い忠実性で被写体を保持しつつ、正確なテキスト制御を同時に実現します。大規模な実験により、本手法が最先端の性能を達成し、非常に現実的で首尾一貫した画像が生成できることを示します。

広告