AI Navigate

画像偽造検出と局在化のための視覚言語モデルの再考

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像偽造検出と局在化を支援するために視覚言語モデルを活用する新しい IFDL パイプライン「IFDL-VLM」を提案する。
  • 視覚言語モデルからの事前情報は、真偽性よりも意味的妥当性に偏る傾向があり、性能を低下させることがあることを示している。
  • 局在マスクは偽造概念を符号化しており、訓練を促進し、結果の解釈性を向上させる追加の事前情報として機能し得ることを明らかにする。
  • 同一ドメイン内およびデータセット間の一般化を対象とした9つのベンチマークでの実験を報告し、検出・局在化・解釈性の分野で新たな最先端性能を達成しており、コードが公開されている。

要旨:人工知能生成コンテンツ(AIGC)の急速な台頭により、画像操作がますます手頃になり、画像の偽造検出と局在化(IFDL)に対して重大な課題をもたらしています。本研究では、視覚と言語のモデル(VLMs)をIFDLタスクの支援にいかに最大限活用できるかを検討します。特に、VLMsからの事前情報は検出および局在の性能にほとんど寄与せず、むしろ意味的妥当性を優先する固有の偏りのために負の影響を及ぼすことさえあると観察されます。さらに、位置マスクは偽造概念を明示的にエンコードしており、VLMsの訓練最適化を緩和する追加の事前情報として機能し、検出および局在の結果の解釈性を高めます。これらの知見に基づき、IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案します。手法の有効性を示すために、9つの人気ベンチマークで実験を行い、ドメイン内およびデータセット間一般化設定の双方でモデル性能を評価します。実験結果は、検出、局在、および解釈性の面で一貫して新しい最先端性能を達成することを示しています。コードは以下で入手可能です: https://github.com/sha0fengGuo/IFDL-VLM。