要旨: AI生成画像の検出は依然として大きな課題である。というのも、特定の生成器で訓練された検出器は、未見のモデルにはしばしば汎化できないためである。しかし一方で、ピクセルレベルのアーティファクトはモデル間で変化するものの、周波数領域のシグネチャはより一貫性が高く、生成器をまたいだ検出の有望な基盤となる。そこで本研究では、SPARK-ILを提案する。これは、部分的に凍結したViT-L/14エンコーダを意味表現用に用いるセマンティック経路と、生のRGBピクセル埋め込み用の並列経路を組み合わせ、さらに増分学習を取り入れたリトリーバル(検索)拡張フレームワークである。両経路はいずれも4つの周波数帯域へのマルチバンド・フーリエ分解を受け、各帯域に対してKolmogorov-Arnold Networks(KAN)を用いた混合エキスパートにより帯域特有の変換を行う。その後、得られたスペクトル埋め込みを残差接続付きのクロスアテンションで融合する。推論時には、この融合埋め込みをコサイン類似度を用いてMilvusデータベースからk個の最も近いラベル付きシグネチャを検索し、多数決によって予測を行う。さらに増分学習戦略として、データベースを拡張し、以前に学習した変換を保持するために弾性重み統合(EWC)を用いる。GAN、顔入れ替え、拡散手法を含む19の生成モデルに対して、UniversalFakeDetectベンチマークで評価した結果、SPARK-ILは平均精度94.6\%を達成した。コードは公開予定で、https://github.com/HessenUPHF/SPARK-IL にある。
SPARK-IL: 増分学習による知識駆動型ディープフェイク検出のための、スペクトル・リトリーバル拡張RAG
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ピクセルレベルのアーティファクトではなく、より一貫性のある周波数領域(スペクトル)の特徴量を用いることで、生成器間における一般化性能の低さに焦点を当てた、知識駆動型ディープフェイク検出器SPARK-ILを提案する。
- SPARK-ILは、二重経路のスペクトル解析(部分的に凍結したViT-L/14によるセマンティック特徴と、raw RGB埋め込み)と、多帯域のフーリエ分解を組み合わせ、その後、バンド固有の変換のために混合エキスパート(mixture-of-experts)を備えたコルモゴロフ=アーノルド・ネットワーク(Kolmogorov-Arnold Networks)を適用する。
- 推論時には、融合したスペクトル埋め込みにより、Milvusのベクトルデータベースからコサイン類似度に基づいてk近傍のラベル付き特徴量を検索し、既知の生成器に関する保存済みの「知識」を活用するために、多数決(majority voting)で予測を行う。
- この枠組みでは、増分学習によって時間とともにラベル付き特徴量データベースを拡張しつつ、弾性重み固定(elastic weight consolidation)により、これまでに学習した変換の壊滅的忘却(catastrophic forgetting)を抑える。
- 19の生成モデルファミリを対象としたUniversalFakeDetectベンチマークにおいて、SPARK-ILは平均精度94.6%を報告しており、著者らはコードを公開する予定だ。




