大規模言語モデルは視覚生成のためのユニバーサル推論器である

arXiv cs.CV / 2026/5/6

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、最近のテキストから画像への生成システムが、アーキテクチャをLLMで統一していても、複雑なプロンプトを生成時に忠実に反映するのが難しい一方で、画像がそのプロンプトを満たすかどうかの検証は高精度であることを指摘している。
  • 著者らはこの不一致を「understanding-generation gap(理解と生成のギャップ)」として定式化し、理解を実際の生成指針に十分に変換できていない点を問題としている。
  • UniReasonerという提案では、LLMをユニバーサル推論器として用い、粗い視覚ドラフト(離散的な視覚トークン)を生成した後、自分自身で自己批判を行い、プロンプト整合性に基づく根拠あるフィードバックを作る。
  • その上で拡散モデルにプロンプト、視覚ドラフト、評価(自己批判の結果)を同時条件付けし、生成を明示的な是正シグナルで誘導することで、同一の拡散バックボーンのまま構成要素の整合性や意味的忠実性を改善しつつ画質も維持できると示している。

要旨: 拡散モデルによってテキストから画像を生成する手法は急速に進歩し、CLIPやT5による条件付けから、単一のLLMバックボーンが視覚の理解と生成の両方を担う統一型システムへと発展してきました。アーキテクチャの統一にもかかわらず、これらのシステムは合成の際に、複雑なプロンプトを忠実に整合させられないことがしばしばあります。一方で、それらと同じプロンプトが与えられた画像が条件を満たすかどうかの検証に関しては、非常に高い精度を保っています。私たちはこれを\emph{理解-生成ギャップ}として定式化し、LLMを万能の推論器として活用して、その理解力を直接的な生成ガイダンスへ変換する枠組みUniReasonerを提案します。プロンプトが与えられると、LLMは最初に、離散的な視覚トークンからなる粗い視覚的下書きを生成します。その後、下書きをプロンプト整合性の観点から評価して自己批判を行い、修正すべき点を特定する根拠に基づいた言語評価を生成します。最後に、拡散モデルはプロンプト、視覚的下書き、評価の3つを同時に条件付けされ、生成が明示的な修正シグナルによって導かれるようにします。各シグナルは互いの制限に対応しています。下書きは、テキストのみの条件付けにおける過小指定を減らす、具体的でシーン単位のアンカーを提供し、評価は、検証を根拠に基づく実行可能な制約へと変換することで、不足、幻覚、関係の誤りを補正します。実験の結果、UniReasonerは同一の拡散バックボーンのもとで、画像品質を維持しつつ、合成的整合性と意味的忠実性を向上させることが示され、理解-生成ギャップを埋めるためにLLMの推論を活用する実用的な手段を示しています。