要旨: テキストによる画像編集は、現代のマルチメディア・コンテンツ制作における重要な課題であり、追加の最適化を必要としない学習不要(training-free)手法によって目覚ましい進展を遂げてきました。近年の進歩にもかかわらず、既存手法の多くは、編集ブランチと再構成ブランチが、それぞれの目的に従ってターゲットおよびソースのプロンプトとの整合を最大化するよう独立に駆動される、競争的なパラダイムに制約されがちです。この敵対的戦略は、ブランチ間の協調が欠如しているために意味的な衝突を引き起こし、結果が予測困難になります。これらの問題を克服するために、我々は協調競争型学習不要画像編集(Coopetitive Training-Free Image Editing, CoEdit)を提案します。これは、新規のゼロショットフレームワークであり、注意制御を競争から協調的な交渉へと変換し、空間的および時間的な次元で編集の調和を実現します。空間的には、CoEditはDual-Entropy Attention Manipulation(双対エントロピー注意操作)を導入し、ブランチ間の方向性エントロピー相互作用を定量化して注意制御を「調和の最大化」問題として再定式化することで、最終的に編集可能かつ保存可能な領域の局在化を改善します。時間的には、Entropic Latent Refinement(エントロピー潜在表現の洗練)機構を提示し、時間の経過に応じて潜在表現を動的に調整することで、蓄積される編集誤差を最小化し、ノイズ除去の軌跡全体を通じて一貫した意味遷移を保証します。さらに、意味的な編集と背景の忠実性を同時に評価する複合指標であるFidelity-Constrained Editing Score(忠実性制約付き編集スコア)を提案します。標準的なベンチマークに対する大規模な実験により、CoEditは編集品質と構造の保持の両面で優れた性能を達成し、視覚と言語というモダリティ間のより効果的な相互作用を可能にすることで、マルチメディア情報の活用を高めることが示されます。コードは https://github.com/JinhaoShen/CoEdit で公開されます。
競争から協調的競争(コーペティション)へ:テキスト指示に基づく訓練不要の協調的画像編集
arXiv cs.CV / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、訓練不要のテキスト指示型画像編集の多くが「編集」と「再構成」の各ブランチをそれぞれ別の目的で独立に最適化する競争的な設計になっており、その結果として意味の衝突や不安定な出力が生じると指摘しています。
- その課題を解決するため、CoEdit(Coopetitive Training-Free Image Editing)というゼロショット手法を提案し、注意(attention)制御をブランチ間の「協調的な交渉」として捉え直すことで、空間的・時間的に編集の整合性を高めます。
- 空間面では、Dual-Entropy Attention Manipulation によりブランチ間の方向付きエントロピー相互作用を定量化し、注意制御を「調和の最大化」問題へと変換することで、編集可能領域と保持すべき領域の局在精度を向上させます。
- 時間面では、Entropic Latent Refinement によりノイズ除去の各時点で潜在表現を動的に調整し、編集誤差の蓄積を抑えつつ、デノイジング軌跡全体で意味遷移の一貫性を確保します。
- さらに、意味の編集と背景の忠実性を同時に評価する Fidelity-Constrained Editing Score を提示し、標準ベンチマークで編集品質と構造/背景の保存性の両方が改善することを示し、コードはGitHubで公開予定です。



