拡散トランスフォーマーによる高忠実度な外観変換のための学習不要フレームワーク
arXiv cs.CV / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DiTのグローバル自己注意によって引き起こされる参照画像に基づく編集の制御困難さに対処し、拡散トランスフォーマー(Diffusion Transformers)による高忠実度な外観変換を可能にする学習不要のフレームワークを提案する。
- 高忠実度な反転(inversion)を用いて、照明や微細なテクスチャの詳細を捉え、ソース画像のための豊富なコンテンツ事前知識(content prior)を構築することで、構造と外観を分離する。
- 新たな注意(attention)共有メカニズムにより、参照画像からの精製された外観特徴を融合し、その融合は幾何学的事前知識によって導かれることで、シーン全体の構造を保持する。
- 本手法は1024pxの解像度で動作し、セマンティック属性の転送や微細な素材の適用などのタスクを含む複数の領域において、専用手法を上回ると報告されている。さらに、構造保持と外観忠実度の両方が向上する。