検出器がフォレンジックを忘れるとき:汎用性の高いAI生成画像検出のための意味的ショートカットの遮断
arXiv cs.CV / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、特にVision Foundation Model(VFM)ベースの検出器が、偽造特有の特徴ではなく支配的な意味的先入観に依存するために、未知の生成パイプラインによる画像に対してうまく一般化できないという、AI生成画像検出における重大な課題に取り組んでいる。
- 著者らは『意味的フォールバック(semantic fallback)』と呼ばれる主要な失敗メカニズムを特定し、検出器が分布の移動が起きた際に微妙な偽造の痕跡を検出するのではなく、アイデンティティなどの意味的手がかりに注目してしまうことを示した。
- これを緩和するために、固定されたVFMを意味的ガイドとして、学習可能なVFMをアーティファクト検出器として用い、意味的成分を学習表現から除去するパラメータ不要の新規モジュール「Geometric Semantic Decoupling(GSD)」を提案し、意味に依存しないフォレンジック手がかりへの依存を促す。
- 実験結果は、GSDが既存の最先端手法を一貫して上回り、未知の改ざんに対する検出のロバスト性を向上させ(DF40で+3.0%)、顔以外の一般的な合成シーンの検出にも汎用化可能であること(UniversalFakeDetectで+0.9%、GenImageで+1.7%)を示した。
- この進展は、新たな生成AI画像パイプラインからの脅威に対応する上で不可欠な、AI生成画像検出の汎用性と信頼性の向上に大きく寄与する。

