再結合のためのもつれ解き:主導型テキストから画像生成における類似性—制御性パラドックスの解決
arXiv cs.CV / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、主導型テキストから画像生成を対象とし、「類似性—制御性パラドックス」すなわち、テキストによる制御を改善すると被写体のアイデンティティが損なわれる(そして逆も起こり得る)という問題に焦点を当てる。
- このパラドックスは、テキストプロンプトが被写体アイデンティティと状況(コンテキスト)編集のための指示をしばしば混在させ、その結果生成時に競合する信号が生じることに起因すると主張する。
- 提案するDisCoフレームワークは、参照画像から被写体アイデンティティのみを抽出(被写体エンティティ語を用いる)し、さらにプロンプトを代名詞を介して修正コマンドのみに簡略化することで、視覚的役割とテキスト的役割を切り離す。
- 厳密な分離によって不自然な被写体—コンテキストの組み合わせが生じるのを防ぐため、この方法は専用の報酬信号を導入し、強化学習によって生成されたコンテキストとアイデンティティを再結合(re-couple)する。
- 実験では最先端の結果が報告され、高い忠実度での被写体保持と、生成画像における正確なテキスト制御の両方を達成する。


