セマンティックなきめ細かな整合とMixture-of-Expertsによる顔画像偽造検出のドメイン横断評価の再考

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、顔画像偽造検出器の性能がデータセット間で十分に伸びない主因として、(特にクロスデータセットAUCのような)評価指標がドメイン横断でのスコア比較可能性の問題を捉えられていない点を指摘している。
  • それを明示的に評価するために、Cross-AUCという指標を提案しており、あるデータセットの実画像と別データセットの偽画像(およびその逆)を対比してデータセット対ごとのAUCを計算する。
  • Cross-AUCで代表的な検出器を評価すると大きな性能低下が観測され、見落とされてきた頑健性(ロバスト性)の問題が明らかになることを示している。
  • さらにSFAM(Semantic Fine-grained Alignment and Mixture-of-Experts)という枠組みを提案し、パッチ単位の画像・テキスト整合モジュールでCLIPが改変アーティファクトへ敏感になるようにし、顔領域のMixture-of-Expertsで領域に応じた偽造解析を行う。
  • 公開データセットでの定性的・定量的実験により、提案手法が複数の指標において最先端手法より優れた性能を達成すると報告している。

Abstract

今日、生成モデルの急速な発展により、視覚データの偽造検出は社会的および経済的なセキュリティにおいてますます重要な役割を担っています。既存の顔偽造検出器は、データセット間での汎化能力が不十分であるため、満足のいく性能を達成できていません。この現象の主要因は、適切な指標の欠如にあります。一般に用いられるクロスデータセットAUC指標では、検出スコアがデータ領域間で大きくシフトし得るという重要な問題を明らかにできません。データ領域をまたぐスコアの比較可能性を明示的に評価するために、 \textbf{Cross-AUC} を提案します。これは、あるデータセットの実サンプルと別のデータセットの偽サンプル(およびその逆)を対比することで、データセット同士の組に対してAUCを計算できる評価指標です。Cross-AUC 指標のもとで代表的な検出器を評価すると、大きな性能低下が生じることが興味深く分かり、これまで見落とされていたロバスト性の問題が露呈します。さらに、 \textbf{S}emantic \textbf{F}ine-grained \textbf{A}lignment and \textbf{M}ixture-of-Experts(\textbf{SFAM})という新規フレームワークも提案します。これは、CLIPが操作の痕跡に対して敏感になるようにするパッチレベルの画像-テキスト整合モジュールと、顔領域の mixture-of-experts モジュールから成り、異なる顔領域からの特徴を領域に応じた専門家(エキスパート)へと振り分け、領域を考慮した偽造解析を行います。公開データセットに対する広範な定性的および定量的実験により、提案手法は、さまざまな適切な指標において、先行の最先端手法よりも優れた性能を達成することが実証されています。