広告

拡散トランスフォーマーによる高忠実度な外観変換のための学習不要フレームワーク

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DiTのグローバル自己注意によって引き起こされる参照画像に基づく編集の制御困難さに対処し、拡散トランスフォーマー(Diffusion Transformers)による高忠実度な外観変換を可能にする学習不要のフレームワークを提案する。
  • 高忠実度な反転(inversion)を用いて、照明や微細なテクスチャの詳細を捉え、ソース画像のための豊富なコンテンツ事前知識(content prior)を構築することで、構造と外観を分離する。
  • 新たな注意(attention)共有メカニズムにより、参照画像からの精製された外観特徴を融合し、その融合は幾何学的事前知識によって導かれることで、シーン全体の構造を保持する。
  • 本手法は1024pxの解像度で動作し、セマンティック属性の転送や微細な素材の適用などのタスクを含む複数の領域において、専用手法を上回ると報告されている。さらに、構造保持と外観忠実度の両方が向上する。

Abstract

拡散トランスフォーマー(DiT)は生成に優れていますが、そのグローバル自己注意は、参照画像に基づく制御可能な編集を行ううえで明確な課題となります。U-Netとは異なり、DiTに素朴に局所的な外観を注入すると、その全体的なシーン構造を崩してしまう可能性があります。そこで本研究では、高忠実度な外観転送のために特化してDiTを制御することを目的とした、最初のトレーニング不要フレームワークを提案します。私たちの中核は、構造と外観を分解する相乗的なシステムです。我々は高忠実度な反転を活用して、ソース画像のための豊かな内容の事前知識を確立し、その照明と微細な質感を捉えます。続いて、新しい注意共有メカニズムにより、幾何学的な事前知識に導かれたもとで、参照から精製された外観特徴を動的に融合します。統一した本手法は1024pxで動作し、意味属性の転送からきめ細かな素材適用までの幅広いタスクにおいて、特化した手法を上回ります。大規模な実験により、構造の保持と外観の忠実度の両面で最先端の性能を達成していることが確認されました。

広告