マイクロ—マクロ・ギャップをつなぐ：画像操作のローカライズのための周波数対応セマンティック整合

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、局所的に現実的に見える拡散生成による編集と、従来型の画像操作の双方をローカライズするための統一フレームワークであるFASA（Frequency-Aware Semantic Alignment）を提案する。
「マイクロ—マクロ・ギャップ」を埋めるために、操作に敏感な周波数手がかり（適応的なデュアルバンドDCTモジュールによって実現）と、操作に対応したセマンティックな事前知識（凍結したCLIP特徴に対するパッチレベルのコントラスト整合によって学習）を組み合わせる。
FASAは、階層的な周波数経路にセマンティックな事前知識を注入するために、マルチスケールの特徴相互作用を可能にするセマンティック—周波数サイドアダプタを用いる。
試作（プロトタイプ）ガイド型の周波数ゲート付きマスクデコーダが、境界を意識したローカライズとセマンティック整合性を統合し、改ざん領域の予測精度を高める。
OpenSDIおよび複数の従来型操作ベンチマークでの実験により、最先端の結果、生成器／データセットをまたいだ強い汎化性能、一般的な画像劣化下での頑健性が示される。

要旨: 生成的な画像編集が進展するにつれ、画像操作のローカライズ（IML）は、目に見えるフォレンジックな痕跡を伴う従来型の操作と、局所的には現実的に見える拡散生成による編集の両方を扱う必要があります。既存手法は一般に、低レベルのフォレンジック手がかり、または高レベルのセマンティクスのみに依存しており、その結果として根本的なミクロ—マクロのギャップが生じます。このギャップを埋めるために、本稿では、従来型および拡散生成された操作の両方をローカライズするための統一フレームワークであるFASAを提案します。具体的には、適応的なデュアルバンドDCTモジュールによって操作に敏感な周波数手がかりを抽出し、凍結したCLIP表現に対するパッチレベルのコントラスト学習による整合を通じて、操作を意識したセマンティクス・プライアを学習します。次に、意味—周波数サイドアダプタによって、これらのプライアを階層的な周波数経路へ注入し、多尺度の特徴相互作用のために利用します。そして、プロトタイプ誘導かつ周波数ゲート付きのマスクデコーダを用いて、意味の一貫性と境界に配慮したローカライズを統合し、改ざん領域の予測を行います。OpenSDIおよび複数の従来型操作ベンチマークに関する大規模な実験により、最先端のローカライズ性能、生成器間およびデータセット間での強力な汎化、ならびに一般的な画像劣化下での頑健な性能が示されます。