AI Navigate

検出器がフォレンジックを忘れるとき:汎用性の高いAI生成画像検出のための意味的ショートカットの遮断

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、特にVision Foundation Model(VFM)ベースの検出器が、偽造特有の特徴ではなく支配的な意味的先入観に依存するために、未知の生成パイプラインによる画像に対してうまく一般化できないという、AI生成画像検出における重大な課題に取り組んでいる。
  • 著者らは『意味的フォールバック(semantic fallback)』と呼ばれる主要な失敗メカニズムを特定し、検出器が分布の移動が起きた際に微妙な偽造の痕跡を検出するのではなく、アイデンティティなどの意味的手がかりに注目してしまうことを示した。
  • これを緩和するために、固定されたVFMを意味的ガイドとして、学習可能なVFMをアーティファクト検出器として用い、意味的成分を学習表現から除去するパラメータ不要の新規モジュール「Geometric Semantic Decoupling(GSD)」を提案し、意味に依存しないフォレンジック手がかりへの依存を促す。
  • 実験結果は、GSDが既存の最先端手法を一貫して上回り、未知の改ざんに対する検出のロバスト性を向上させ(DF40で+3.0%)、顔以外の一般的な合成シーンの検出にも汎用化可能であること(UniversalFakeDetectで+0.9%、GenImageで+1.7%)を示した。
  • この進展は、新たな生成AI画像パイプラインからの脅威に対応する上で不可欠な、AI生成画像検出の汎用性と信頼性の向上に大きく寄与する。

Abstract

AI生成画像検出は、生成AIの急速な進展に伴い、ますます重要性を増している。しかし、Vision Foundation Models(VFM、例えばCLIP)に基づく検出器は、未知の生成パイプラインで作成された画像に対して一般化することが困難であることが多い。私たちは初めて、VFMベースの検出器が分布シフト時に偽造特有の痕跡ではなく、アイデンティティなどの主要な事前訓練された意味的先入観に依存するという重要な失敗メカニズム「意味的フォールバック」を特定した。この問題に対処するために、固定されたVFMを意味的ガイドとして活用し、学習可能なVFMをアーティファクト検出器として用いることで、学習表現から意味的成分を明示的に除去するパラメータ不要のモジュール「Geometric Semantic Decoupling(GSD)」を提案する。GSDはバッチ単位の統計情報から意味的方向を推定し、それらを幾何学的制約により射影除去することで、アーティファクト検出器が意味に依存しないフォレンジック証拠に依存するように強制する。広範な実験により、本手法が最先端手法を一貫して上回り、クロスデータセット評価で94.4%のビデオレベルAUC(+1.2%)を達成し、未知の改ざんへのロバスト性を向上(DF40で+3.0%)、顔検出を超えた一般シーンの合成画像検出へも一般化可能であること(UniversalFakeDetectで+0.9%、GenImageで+1.7%)を示した。