TAPでパッチトークンを活用:視覚基盤モデルの特徴を用いたAI生成画像検出

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚基盤モデル(VFM)を特徴抽出器として用いることで、未見の生成モデルから作られたAI生成画像およびAIインペイント画像をどれだけ検出できるかを体系的に評価しています。
  • 様々なVFMファミリー(事前学習の目的、入力解像度、モデル規模が異なる)を横断した結果、最良のモデルが元のCLIPを12%以上の精度で上回り、既存手法も上回ることが示されました。
  • 現代的なVFMの特徴をより活かすために、チューナブル注意プーリング(TAP)を用いて出力トークンを統合し、洗練された全体表現を作るというシンプルな分類ヘッドの再設計を提案しています。
  • TAPを最新のVFMに組み込むと複数のAIGI検出ベンチマークで大幅な性能向上が得られ、生成画像とインペイント画像の「in-the-wild」検出における2つの難関ベンチマークで新たなSOTAを確立したと報告されています。