近傍重複に基づく品質を考慮した、AI生成画像の実環境検出の校正手法

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、バイラルに拡散される過程で再圧縮・リサイズ・クロップなどが繰り返されて複数の近傍重複版が生まれるため、実環境でのAI生成画像検出が不安定になり得ると指摘している。
  • 提案手法QuAD(Quality-Aware calibration with near-Duplicates)は、クエリ画像のオンライン近傍重複を取得し、各版に検出器を適用した上で、各インスタンスの品質推定に基づいてスコアを統合する。
  • 大規模評価のために、AncesTree(136k枚を対象に、オンライン再投稿の動きを確率的な劣化ツリーとして再現するインラボ・データセット)と、ReWIND(バイラルWebコンテンツから収集した約10kの近傍重複画像データセット)を新たに導入している。
  • 複数の最先端検出器に対する実験では、QuADの品質を考慮した融合により性能が一貫して向上し、単純平均と比べてバランス精度で平均約8%の改善が得られた。
  • 本研究は、実アプリケーションで信頼性の高いAI生成コンテンツ検出を行うには、画像単体ではなくオンライン上で利用可能な全バージョンを同時に分析することが重要だと示している。

Abstract

合成画像の検出において大きな進展がなされてきましたが、既存の多くの手法は単一の画像インスタンスに対して動作するため、現実世界での拡散における重要な特徴を見落としています。すなわち、ウイルスのように画像がWeb上で拡散される際には、複数のほぼ重複(near-duplicate)版が現れ、再圧縮、リサイズ、クロッピングのような反復操作によって品質が低下します。その結果、同一の画像でも、どのバージョンが解析されたかによって、フォレンジック(forensic)予測が一貫しない場合があります。本研究ではこの問題に対処するために、QuAD(Quality-Aware calibration with near-Duplicates)という新しい枠組みを提案します。これは、同一画像の利用可能なすべてのほぼ重複版に基づいて判断を行います。クエリが与えられたら、そのオンライン上のほぼ重複版を検索し、それらを検出器に入力します。得られたスコアは、対応するインスタンスの推定品質に基づいて集約されます。これにより、複数の処理ステップによって損なわれた画像の信頼性が低下していることを考慮しつつ、利用可能なすべての情報を活用します。大規模評価を支えるために、2つのデータセットを導入します。1つ目はAncesTreeで、136k枚の画像からなる研究室内データセットで、オンラインでの再投稿のダイナミクスをシミュレートする確率的劣化ツリーとして整理されています。2つ目はReWINDで、ウイルス的に拡散したWebコンテンツから収集した、ほぼ重複画像がほぼ10k枚の実世界データセットです。いくつかの最先端の検出器に対する実験では、品質を考慮した融合が一貫して性能を改善し、単純平均と比べてバランス精度(balanced accuracy)で平均約8%の向上が得られました。本研究の結果は、実世界のアプリケーションにおいてAI生成コンテンツを信頼性高く検出するためには、オンラインで利用可能なすべての画像を共同で処理することの重要性を示しています。コードとデータは https://grip-unina.github.io/QuAD/ で公開されています。