編集する場所を見直す:指示に基づく画像編集のためのタスク対応型ローカライズ

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、指示に基づく画像編集における「やりすぎ(over-editing)」を、編集すべき領域を特定する明示的なタスク対応型のローカライズ機構が欠けていることに起因すると指摘しています。
  • 提案は学習不要の編集ローカライズ枠組みで、ソース画像ストリームとターゲット画像ストリームそれぞれから注意に基づく編集の手掛かりを抽出し、トークンを「編集領域/非編集領域」に分割します。
  • 編集操作(追加、削除、置換など)によって最適なローカライズが異なる点を踏まえ、タスク種別に応じてソース/ターゲット両ストリームを使い分ける統一的なマスク構築戦略を導入しています。
  • EdiVal-Benchでの実験では、非編集領域の一貫性が改善しつつ、Step1X-Edit や Qwen-Image-Edit のような強力な画像編集バックボーン上でも指示追従性能を維持できることを示しています。