AI Navigate

A$^2$-Edit: 正確な参照ガイド付き任意のオブジェクトと曖昧なマスクの画像編集

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • A²-Edit は、粗いマスクのみを用いて任意のオブジェクトを参照オブジェクトで正確に編集できる統一的なインペインティングフレームワークです。
  • 大規模なマルチカテゴリデータセット \textbf{UniEdit-500K} を導入します。8つの主要カテゴリ、209の細粒度サブカテゴリ、総計500,104の画像ペアを含み、同質化とカバレッジの課題に対処します。
  • \textbf{Mixture of Transformer} モジュールを導入します。動的エキスパート選択を通じてさまざまなオブジェクトカテゴリを差異化したモデリングを行い、エキスパート間の協調を通じてカテゴリ間のセマンティック転送と一般化を強化します。
  • \textbf{Mask Annealing Training Strategy} (MATS) を提案します。訓練中にマスクの精度を段階的に緩和し、正確なマスクへの依存を減らしてさまざまな編集タスクに対する頑健性を向上させます。
私たちは \textbf{A$^2$-Edit} を提案します。任意のオブジェクトカテゴリのための統一的なインペインティングフレームワークで、粗いマスクのみを用いて任意のターゲット領域を参照オブジェクトと置換することを可能にします。既存データセットにおける深刻な同質化と限定的なカテゴリカバレッジの問題に対処するため、私たちは大規模でマルチカテゴリのデータセット \textbf{UniEdit-500K} を構築しました。8つの主要カテゴリ、209の細粒度サブカテゴリ、総計500,104の画像ペアを含みます。このような豊富なカテゴリ多様性はモデルに新たな課題をもたらし、カテゴリ間の意味関係と差異を自動的に学習する必要があります。この目的のために、\textbf{Mixture of Transformer} モジュールを導入します。これは動的エキスパート選択を通じてさまざまなオブジェクトカテゴリを差異化したモデリングを行い、エキスパート間の協調を通じてカテゴリ間のセマンティック転送と一般化をさらに高めます。さらに、\textbf{Mask Annealing Training Strategy} (MATS) を提案します。訓練中にマスクの精度を段階的に緩和し、正確なマスクへの依存を減らしてさまざまな編集タスクに対する頑健性を向上させます。広範なベンチマークである VITON-HD および AnyInsertion などの実験は、A$^2$-Edit が従来の手法をすべての指標で一貫して上回ることを示しており、任意のオブジェクト編集に対する新しく効率的な解決策を提供します。