ピクセルの法廷裁判：敵対的エビデンスと強化学習による堅牢な画像改ざん位置推定

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、画像改ざん位置推定（IML）の多くの手法が真正性に関する教師信号を補助的な学習信号としてのみ扱い、改ざん領域と真正領域を明示的に対立する「証拠」としてモデル化できていないと指摘している。
改ざんと真正性の証拠を対決させるための、告発側ストリーム・弁護側ストリーム・裁判官モデルからなる法廷型の裁定フレームワークを提案している。
告発側と弁護側は、エッジ優先（edge priors）に基づいて、カスケード型のマルチレベル融合や双方向の不一致抑制、動的な議論の洗練によって、改ざん領域と真正領域のエビデンスを生成する。
強化学習による裁判官モデルが、不確かな領域で戦略的な再推論と再精錬を行い、最終的な改ざん領域マスクを出力し、優位度（advantage）に基づく報酬とsoft-IoU目的で学習する。
実験では、エントロピーと仮説間の整合性を用いた信頼性キャリブレーションにより、既存の最先端IML手法より平均性能が向上したことを示している。

要旨: 既存の画像操作ローカライゼーション（IML）手法の一部では真正性に関する監督を取り入れているものの、この情報は通常、操作領域に対して操作されている領域を否定するローカライゼーションの証拠として明示的にモデル化されるのではなく、単に補助的な学習信号として用いられ、操作アーティファクトに対するモデルの感度を高めることに留まっています。その結果、操作痕跡が微弱である場合や、ポストプロセッシングやノイズによって劣化している場合、これらの手法は操作された証拠と真正な証拠を明示的に比較することができず、曖昧な領域における予測が信頼できないものになります。これらの問題に対処するため、我々はIMLタスクを「証拠の対峙に続く裁定」とみなす法廷風の審判フレームワークを提案します。このフレームワークは、検察ストリーム、弁護ストリーム、そして裁判官モデルで構成されています。まず、共有するマルチスケールエンコーダ上にデュアル仮説のセグメンテーションアーキテクチャを構築します。この中で検察ストリームは操作を主張し、弁護ストリームは真正性を主張します。エッジ事前知識に導かれ、カスケードされたマルチレベル融合、双方向の不一致抑制、動的な討論の洗練によって、操作領域と真正領域のそれぞれに対する証拠を生成します。さらに、不確実な領域に対して戦略的な再推論と精緻化を行う強化学習ベースの裁判官モデルを発展させ、操作領域マスクを得ます。裁判官モデルは、アドバンテージに基づく報酬とソフト-IoU目的関数で学習され、信頼性はエントロピーと仮説間整合性によってキャリブレーションされます。実験結果により、提案モデルはSOTAのIML手法と比べて平均性能が優れていることが示されます。