層の一貫性が重要: 一般化可能な合成画像検出のための洗練された潜在遷移不一致
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 実画像と合成画像の新たな区別を特定します。実画像は潜在ネットワークの層全体で安定した意味的注意と構造的整合性を維持する一方、合成画像は特徴遷移に識別的な差異を示します。
- 層間の一貫性の差異を捉え、検出のために最も識別力の高い層を適応的に選択する手法である latent transition discrepancy (LTD) を提案します。
- LTD は、さまざまな GAN と拡散モデルを含む3つのデータセットにおいて、ベースモデルより平均精度を14.35%改善し、優れた一般化性能を示します。
- 本研究は大規模な実験を報告し、リンクされた GitHub リポジトリにコードを公開しており、合成画像検出の堅牢性と実用性を強調しています。
要旨: 最近の生成モデルの急速な発展は、AI生成の合成画像の忠実度とアクセス性を著しく向上させました。さまざまな革新的なアプリケーションを可能にする一方で、これらの合成画像の前例のないリアリズムは、実際の写真と見分けがつかなくなりつつあり、メディアの信ぴょう性や内容操作など重大なセキュリティリスクをもたらします。合成画像を検出するための広範な努力がなされてきましたが、多くの既存手法は、モデル特有のアーティファクトや低レベルの統計的手掛かりに依存するため、未知データに対する一般化が不十分です。本研究では、実画像は潜在表現において一貫した意味的注意と構造的一貫性を維持し、ネットワーク層を跨ぐ特徴遷移がより安定しているのに対し、合成画像は識別可能な差異を示す、これまで未探索だった区別を特定します。したがって、潜在遷移不一致(LTD)と呼ばれる新しいアプローチを提案します。LTDは実画像と合成画像の層間の一貫性差を捉え、最も識別力の高い層を適応的に特定し、層間の遷移差異を評価します。提案された層間識別モデリングにより、我々の手法は、さまざまなGANと拡散モデルを含む3つのデータセットで平均精度を14.35%上回り、ベースモデルを上回ります。広範な実験により、LTDは最近の最先端手法を上回り、優れた検出精度・汎用性・頑健性を達成することが示されています。コードは https://github.com/yywencs/LTD に公開されています。