StructDiff：単一画像生成のための、構造を保持し空間的に制御可能な拡散モデル

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

StructDiffは、外部データを必要としない単一画像生成のための、単一スケールの拡散ベース・フレームワークであり、入力画像の構造と内部の視覚統計を保持することを目標とする。
本モデルは、グローバル分布とローカル分布の両方を維持するための適応型受容野（receptive field）モジュールを用いており、大きな剛体（rigid）物体や厳密な空間制約を含む画像にも対応できるようにしている。
StructDiffは、生成される物体の位置・スケール・局所的なディテールに対する空間制御を可能にする空間的先行情報として、3D位置エンコーディングを追加する。これにより、単一画像生成においてPE（位置エンコーディング）に基づく操作を用いる。
本論文は、大規模言語モデル（LLM）を活用した評価指標を提案し、従来の客観評価指標を超えて単一画像生成をより適切に評価できるようにするとともに、高コストなユーザースタディへの依存を減らすことを目指す。
実験結果は、構造的一貫性、画像品質、空間的制御可能性の各面で、先行手法に比べて性能が向上していることを示している。さらに、テキスト誘導生成、編集、アウトペインティング、ペイント・トゥ・イメージ合成に対して有用であることが実証されている。