A$^2$-Edit: 正確な参照ガイド付き任意のオブジェクトと曖昧なマスクの画像編集

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

A²-Edit は、粗いマスクのみを用いて任意のオブジェクトを参照オブジェクトで正確に編集できる統一的なインペインティングフレームワークです。
大規模なマルチカテゴリデータセット \textbf{UniEdit-500K} を導入します。8つの主要カテゴリ、209の細粒度サブカテゴリ、総計500,104の画像ペアを含み、同質化とカバレッジの課題に対処します。
\textbf{Mixture of Transformer} モジュールを導入します。動的エキスパート選択を通じてさまざまなオブジェクトカテゴリを差異化したモデリングを行い、エキスパート間の協調を通じてカテゴリ間のセマンティック転送と一般化を強化します。
\textbf{Mask Annealing Training Strategy} (MATS) を提案します。訓練中にマスクの精度を段階的に緩和し、正確なマスクへの依存を減らしてさまざまな編集タスクに対する頑健性を向上させます。

私たちは \textbf{A$^2$-Edit} を提案します。任意のオブジェクトカテゴリのための統一的なインペインティングフレームワークで、粗いマスクのみを用いて任意のターゲット領域を参照オブジェクトと置換することを可能にします。既存データセットにおける深刻な同質化と限定的なカテゴリカバレッジの問題に対処するため、私たちは大規模でマルチカテゴリのデータセット \textbf{UniEdit-500K} を構築しました。8つの主要カテゴリ、209の細粒度サブカテゴリ、総計500,104の画像ペアを含みます。このような豊富なカテゴリ多様性はモデルに新たな課題をもたらし、カテゴリ間の意味関係と差異を自動的に学習する必要があります。この目的のために、\textbf{Mixture of Transformer} モジュールを導入します。これは動的エキスパート選択を通じてさまざまなオブジェクトカテゴリを差異化したモデリングを行い、エキスパート間の協調を通じてカテゴリ間のセマンティック転送と一般化をさらに高めます。さらに、\textbf{Mask Annealing Training Strategy} (MATS) を提案します。訓練中にマスクの精度を段階的に緩和し、正確なマスクへの依存を減らしてさまざまな編集タスクに対する頑健性を向上させます。広範なベンチマークである VITON-HD および AnyInsertion などの実験は、A$^2$-Edit が従来の手法をすべての指標で一貫して上回ることを示しており、任意のオブジェクト編集に対する新しく効率的な解決策を提供します。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

A$^2$-Edit: 正確な参照ガイド付き任意のオブジェクトと曖昧なマスクの画像編集

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer