画像偽造検出と局在化のための視覚言語モデルの再考

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、画像偽造検出と局在化を支援するために視覚言語モデルを活用する新しい IFDL パイプライン「IFDL-VLM」を提案する。
視覚言語モデルからの事前情報は、真偽性よりも意味的妥当性に偏る傾向があり、性能を低下させることがあることを示している。
局在マスクは偽造概念を符号化しており、訓練を促進し、結果の解釈性を向上させる追加の事前情報として機能し得ることを明らかにする。
同一ドメイン内およびデータセット間の一般化を対象とした9つのベンチマークでの実験を報告し、検出・局在化・解釈性の分野で新たな最先端性能を達成しており、コードが公開されている。

要旨：人工知能生成コンテンツ（AIGC）の急速な台頭により、画像操作がますます手頃になり、画像の偽造検出と局在化（IFDL）に対して重大な課題をもたらしています。本研究では、視覚と言語のモデル（VLMs）をIFDLタスクの支援にいかに最大限活用できるかを検討します。特に、VLMsからの事前情報は検出および局在の性能にほとんど寄与せず、むしろ意味的妥当性を優先する固有の偏りのために負の影響を及ぼすことさえあると観察されます。さらに、位置マスクは偽造概念を明示的にエンコードしており、VLMsの訓練最適化を緩和する追加の事前情報として機能し、検出および局在の結果の解釈性を高めます。これらの知見に基づき、IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案します。手法の有効性を示すために、9つの人気ベンチマークで実験を行い、ドメイン内およびデータセット間一般化設定の双方でモデル性能を評価します。実験結果は、検出、局在、および解釈性の面で一貫して新しい最先端性能を達成することを示しています。コードは以下で入手可能です: https://github.com/sha0fengGuo/IFDL-VLM。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

画像偽造検出と局在化のための視覚言語モデルの再考

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer