拡散トランスフォーマーによる高忠実度な外観変換のための学習不要フレームワーク

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DiTのグローバル自己注意によって引き起こされる参照画像に基づく編集の制御困難さに対処し、拡散トランスフォーマー（Diffusion Transformers）による高忠実度な外観変換を可能にする学習不要のフレームワークを提案する。
高忠実度な反転（inversion）を用いて、照明や微細なテクスチャの詳細を捉え、ソース画像のための豊富なコンテンツ事前知識（content prior）を構築することで、構造と外観を分離する。
新たな注意（attention）共有メカニズムにより、参照画像からの精製された外観特徴を融合し、その融合は幾何学的事前知識によって導かれることで、シーン全体の構造を保持する。
本手法は1024pxの解像度で動作し、セマンティック属性の転送や微細な素材の適用などのタスクを含む複数の領域において、専用手法を上回ると報告されている。さらに、構造保持と外観忠実度の両方が向上する。

Abstract

拡散トランスフォーマー（DiT）は生成に優れていますが、そのグローバル自己注意は、参照画像に基づく制御可能な編集を行ううえで明確な課題となります。U-Netとは異なり、DiTに素朴に局所的な外観を注入すると、その全体的なシーン構造を崩してしまう可能性があります。そこで本研究では、高忠実度な外観転送のために特化してDiTを制御することを目的とした、最初のトレーニング不要フレームワークを提案します。私たちの中核は、構造と外観を分解する相乗的なシステムです。我々は高忠実度な反転を活用して、ソース画像のための豊かな内容の事前知識を確立し、その照明と微細な質感を捉えます。続いて、新しい注意共有メカニズムにより、幾何学的な事前知識に導かれたもとで、参照から精製された外観特徴を動的に融合します。統一した本手法は1024pxで動作し、意味属性の転送からきめ細かな素材適用までの幅広いタスクにおいて、特化した手法を上回ります。大規模な実験により、構造の保持と外観の忠実度の両面で最先端の性能を達成していることが確認されました。

なぜAIエージェントのチームは、エージェントが“振る舞ってくれること”に期待しているだけなのか

Dev.to

Harness as Code：AIワークフローをインフラとして扱う

Dev.to

Claude Codeのワンショット実装能力を向上させる方法

Towards Data Science

毎月0ドルで動かせる「Crypto AIエージェント・スタック」

Dev.to

物体検出ニューラルネットワークの学習のための「無料の小道具（Bag of Freebies）」

Dev.to

拡散トランスフォーマーによる高忠実度な外観変換のための学習不要フレームワーク

要点

Abstract

関連記事

なぜAIエージェントのチームは、エージェントが“振る舞ってくれること”に期待しているだけなのか

Harness as Code：AIワークフローをインフラとして扱う

Claude Codeのワンショット実装能力を向上させる方法

毎月0ドルで動かせる「Crypto AIエージェント・スタック」

物体検出ニューラルネットワークの学習のための「無料の小道具（Bag of Freebies）」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer