当事者が裁く?GPT-Image-2は自分で偽造した書類を認識できない

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、GPT-Image-2が書類画像(例:レシートの数値欄)を1秒未満で生成・編集でき、真正とAI編集の見た目の境界がほぼ消えてしまうと報告している。
  • 著者らは、3,066件のGPT-Image-2による偽造を対(本物・偽造)で収録し、ピクセル単位のマスクを付けたAIForge-Doc v2を公開し、さらに人手による判定と3種類の計算機検出手法によるベンチマークも提示している。
  • 人手の検査員がAI偽造と本物を見分ける精度は0.501で偶然と同等であり、計算機による審査もわずかに上回る程度にとどまる(TruFor 0.599、DocTamper 0.585、GPT-Image-2をゼロショットの自己審査として使った場合0.532)。
  • 「自己審査」では、複数のプロンプト戦略や曖昧な回答への取り扱い方針にわたって一貫して失敗し、AUCは0.59を超えないことが示されている。
  • 従来型の改ざん(AIでない編集)での校正では検出器が良好に機能する一方(TruFor AUC 0.962、DocTamper AUC 0.852)、GPT-Image-2によるインペインティングに置き換えると0.27〜0.36低下するため、GPT-Image-2固有の検出ギャップが切り出されている。データセット、パイプライン、4者の審査プロトコル、校正用セットも公開される。

要旨: OpenAIのGPT-Image-2は、真正の文書画像とAIによって編集された文書画像の視覚的な境界を事実上消し去りました――レシート上の単一の数値を数セントで、1秒未満で置き換えることができます。本研究では、DocTamper互換形式におけるピクセル単位で正確なマスクを伴う、GPT-Image-2による文書偽造3,066件からなる対となるデータセット「AIForge-Doc v2」を公開します。そして、防御の4つの系統をベンチマークします: 人間の検査者(N=120、公開の2AFCサイトCanUSpotAI.com経由でn=365のペア投票)、TruFor(汎用フォレンジック)、DocTamper(qcf-568、文書固有)、およびゼロショットの自己審判として同じGPT-Image-2モデル――つまり、「画像は主に実物である」という些細な読みを避けるために、いかなる領域がAI画像モデルによって生成または編集されたのかを質問します。人間の2AFC精度は0.501で、偶然と区別がつきません: 並べて見ても、検査者はGPT-Image-2によるレシートの偽造を真正の対となるものから判別できません。3つの計算上の判定者はいずれも、わずかに上回る程度です(TruFor 0.599、DocTamper 0.585、自己審判 0.532)。自己審判は、一貫して偶然ではなく失敗します: 曖昧な応答の扱い方に関する5つのプロンプト戦略と4つの方針にわたっても、AUCは0.59を超えません。2つのフォレンジック検出器が、AIによるインペインティングに盲目であるというより、我々のソースドメイン上で壊れている可能性を排除するために、それぞれを訓練時の分布に合わせて作られた同一ドメインの従来型改ざんセットでキャリブレーションします: TruForは、データセットのカメラ間スプライシングでAUC 0.962に到達し、DocTamperは、2回パスのJPEG再エンコードを用いたカメラ間(ではなく文書間)のOCRトークンスプライシングでAUC 0.852に到達します。どちらも、従来型の改ざんに対しては公表時に近い性能を保持しますが、GPT-Image-2のインペインティングに切り替えるとAUCは0.27〜0.36低下します(0.962→0.599 TruFor、0.852→0.585 DocTamper)。これにより、GPT-Image-2のインペインティングに固有の検出ギャップが切り分けられます。データセット、パイプライン、4人の判定者によるプロトコル、キャリブレーション用のセットを公開します。