セマンティック操作のローカライゼーション

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

画像編集や生成モデルの普及により、従来の局所操作検出（アーティファクトベース）が通用しにくくなる中で、意味を変える微細編集を見つける新タスク「Semantic Manipulation Localization (SML)」を提案しています。
SML専用のファイングレイン・ベンチマークを、セマンティクス駆動の操作パイプラインとピクセルレベル注釈により構築しています。
その上で、TRACE（Targeted Reasoning of Attributed Cognitive Edits）というエンドツーエンド手法を導入し、(1)意味アンカー、(2)意味摂動センシング、(3)意味制約付き推論を段階的に結合して編集領域を特定します。
実験ではTRACEが既存のIML手法よりベンチマーク上で一貫して優れ、より完全でコンパクトかつセマンティクス的に整合したローカライズ結果を示したと報告しています。

Abstract

画像操作ローカライゼーション（IML）は、画像内で編集された領域を特定することを目的とします。しかし、現代的な画像編集や生成モデルの利用が増えるにつれて、多くの操作はもはや明白な低レベルのアーティファクトを示さなくなっています。代わりに、それらは周辺の内容と非常に高い整合性を保ちつつ、対象の属性・状態・関係に対して、意味を変えるような微妙な編集を伴うことがしばしばあります。そのため、IMLの従来手法は、主にアーティファクト検出に依存しており、意味的な感度ではなくアーティファクト検出に重点を置いているため、効果が低くなります。そこで本研究では、この問題に対処するために、画像の解釈を大きく変えるような、微妙な意味編集を局所化することに焦点を当てた新しいタスクである意味操作ローカライゼーション（SML）を提案します。さらに、ピクセルレベルのアノテーションを備えた、意味に基づく操作パイプラインを用いて、SML専用のきめ細かなベンチマークを構築します。このタスクに基づき、TRACE（Targeted Reasoning of Attributed Cognitive Edits）を提案します。これは、意味的な感度を、段階的に結合される3つのコンポーネントによってモデル化するエンドツーエンドの枠組みです。すなわち、意味的アンカリング、意味的摂動センシング、意味に制約された推論です。具体的には、TRACEはまず、画像理解を支える意味的に有意な領域を特定し、次に、強い視覚的整合性の下での微妙な編集を捉えるために、摂動に敏感な周波数の手がかりを注入し、最後に、意味内容と意味的なスコープの双方に関する共同推論によって候補領域を検証します。大規模な実験の結果、TRACEは本ベンチマークにおいて既存のIML手法を一貫して上回り、より完全で、コンパクトで、かつ意味的に首尾一貫したローカライゼーション結果を生成することが示されました。これらの結果は、アーティファクトに基づくローカライゼーションを超える必要性を示すとともに、複雑な意味編集シナリオにおける画像フォレンジックの新しい方向性を提示します。