要旨: 近年、拡散モデルの進歩により高品質な画像生成が可能になり、生成後に局所領域を変更しつつグローバルな構造を保持する編集への需要が高まっています。このような柔軟かつ高精度な編集を実現するには、高品質な出発点、すなわち多様な変更に必要な自由度と、微細で領域固有の制御に必要な精度の両方を提供する潜在表現が必要です。しかし、DDIM反転のような既存の反転ベース手法では、しばしば満足のいく出発潜在が得られず、その結果として編集の忠実度が低下し、構造の整合性も損なわれます。理想的には、編集のための最も適したアンカーは生成プロセス中に用いられた元の潜在であるべきであり、これはシーンの構造と意味論を本来的に捉えています。しかし、生成された画像ごとにこの潜在を保存することは、膨大な保存および取得コストのため現実的ではありません。この課題に対処するため、我々はResetEditを提案します。ResetEditは、回復可能な潜在情報を生成プロセスに直接埋め込む、事前対応型の拡散編集フレームワークです。クリーンな潜在と拡散された潜在の差異を拡散軌道に注入し、反転の過程でそれを抽出することで、ResetEditは真の出発状態をかなり近似するリセット可能な潜在を再構築します。さらに、VAEの非対称性によって生じる再構築バイアスを補償する軽量な潜在最適化モジュールを追加します。Stable Diffusionの上に構築されたResetEditは、チューニング不要の既存編集手法とシームレスに統合でき、制御性と視覚的忠実度の両面で一貫して最先端のベースラインを上回ります。
ResetEdit:リセット可能な開始潜在状態による生成画像のテキスト指示付き高精度編集
arXiv cs.CV / 2026/4/29
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文では、拡散モデルを用いて画像の局所領域をテキストで指示しつつ、グローバルな構造を保ったまま高精度に編集するためのフレームワーク「ResetEdit」を提案しています。
- 既存の反転ベース手法(DDIM inversionなど)は編集に用いる「開始潜在」をうまく復元できず、編集の忠実性低下や構造の不整合につながると主張しています。
- ResetEditは、生成プロセス自体に回復可能な潜在情報を埋め込むことでこの課題を解決し、「クリーンな潜在」と「拡散後の潜在」の不一致を拡散軌跡に注入し、反転時にそれを抽出して真の開始状態に近いリセット可能な潜在を再構成します。
- さらに、VAEの非対称性に起因する再構成バイアスを補正するための軽量な潜在最適化モジュールも導入しています。
- Stable Diffusion上での評価では、ResetEditがチューニング不要の編集手法とも統合可能で、制御性と視覚品質の両面で既存のベースラインを一貫して上回ると報告されています。



