周波数対応型セマンティック融合とゲート付き注入によるAI生成画像検出

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

共有:

要点

本論文は、未知の生成器に直面した際に検出性能が大きく落ち、一般化が難しくなるAI生成画像検出の課題に取り組んでいる。
一般化不良の主因として、(1) 周波数が“生成器ごとに見分けやすい手がかり”へ偏る「周波数ショートカット・バイアス」と、(2) 高レベル意味表現と低レベル周波数パターンの間で表現が衝突することを挙げている。
提案手法 Frequency-aware Gated Injection Network（FGINet）は、Band-Masked Frequency Encoder（BMFE）により周波数領域で帯域マスクを行い、生成器固有のアーティファクトへの依存を下げてより汎用的な表現を促す。
さらに Layer-wise Gated Frequency Injection（LGFI）で、適応的なゲートを用いて周波数手がかりを段階的にビジョン・ファウンデーションモデルへ注入し、階層的な抽象度における表現衝突を緩和する。
Hyperspherical Compactness Learning（HCL）によりコンパクトでよく分離された埋め込みを学習し、複数データセットで強い一般化と最先端性能が示されている。

Abstract

AI生成画像はますます現実的で多様になっており、汎用的な検出に対して大きな課題をもたらしています。ビジョン・ファウンデーション・モデル（VFM）は豊かなセマンティック表現を提供し、周波数ベースの手法は補完的なアーティファクトの手がかりを捉えますが、これらのモダリティを組み合わせる既存のアプローチは、それでもなお汎化性能が限定的であり、未見の生成モデルに対して顕著な性能劣化が見られます。本研究では、この制約の要因を2つに帰着します。すなわち、(1) 特定の生成器に結びつく、容易に識別可能な手がかりへの周波数ショートカットバイアス、(2) 高レベルのセマンティクスと低レベルの周波数パターンの間に生じるドメイン間表現の競合です。これらの問題に対処するため、汎化性能を向上させるFrequency-aware Gated Injection Network（FGINet）を提案します。具体的には、周波数領域においてバンド間のマスキングを適用するBand-Masked Frequency Encoder（BMFE）を設計し、生成器固有のパターンへの依存を低減するとともに、より多様で汎化可能な表現を促します。さらに、Layer-wise Gated Frequency Injection（LGFI）メカニズムを導入し、適応的なゲーティングにより、階層的な抽象化に整合しつつ表現の競合を緩和しながら、周波数の手がかりをVFMバックボーンへ段階的に注入します。加えて、cosine margin目的を用いたHyperspherical Compactness Learning（HCL）フレームワークを提案し、コンパクトで十分に分離された表現を学習します。大規模な実験により、FGINetが最先端の性能を達成し、複数の困難なデータセットにおいて強力な汎化を示すことが分かります。