AttnRouter：MMDiT向け「学習なし」での画像編集に対するカテゴリ別アテンションルーティング

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本論文は、ノイズと元画像トークンを単一のアテンションストリームで連結する60ブロックのマルチモーダル拡散トランスフォーマ（MMDiT）Qwen-Image-Edit-2511における学習なし画像編集を扱っています。
KVInjectとして、単一フォワードでのKV（キー/バリュー）注入により、局所的なレイヤ/ステップ帯域内で元側のキー/バリュー投影をノイズ側へアルファブレンドする手法を提案し、MasaCtrlよりも良好な結果を示しつつ、プロンプト不一致による失敗モードを回避します。
編集タイプごとに支配的なアテンション操作は存在しないことを示し、各カテゴリに対して元の構造を最も保つ操作へ編集を振り分けるカテゴリ別ルーティングテーブルAttnRouterを提案しています。
既知の（ground-truth）編集カテゴリを用いると、CLIP-T+DINO-I複合スコアがベースライン比で6.4%向上し、CLIPによるゼロショット分類器でもカテゴリ精度55%にもかかわらず、この改善の98%を回収します。
アブレーションにより有効な注意サブ回路の位置が特定され、初期のデノイズステップ（S0–7）でのK/V注入が全ステップ注入に近い効果を示す一方、他のレイヤ/ステップ帯域や単純なK/V再スケーリングは失敗することが報告されています。さらに、コード、事前計算済みルーティングテーブル、ImgEdit-Benchの100サンプル層化サブセットを公開します。