PromptForge-350k: 大規模データセットとコントラスト学習フレームワークによる、プロンプトベースAI画像改ざんのローカライズ

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

PromptForge-350kは、プロンプトベースの画像編集モデルによって作成された悪意ある編集を検出することに焦点を当てた、大規模な改ざんローカライズ用データセットを導入し、学習データの不足という課題に取り組む。
本研究では、キーポイントのアラインメントとセマンティック空間の類似度を用いて、編集領域のグラウンドトゥルースとなるマスクを生成する、完全自動のマスク注釈フレームワークを提案する。
ICL-Netとして、トリプルストリームのバックボーンと画像内コントラスト学習を備えた改ざんローカライズネットワークを提示し、頑健で汎用性の高いフォレンジック特徴を学習する。
実験では、PromptForge-350k上でIoU 62.5%を報告し、先行技術を5.1%改善した。さらに一般的な劣化に対する耐性が強く（IoU低下 <1%）、高いロバスト性を示す。
また、本モデルは未見の編集モデルに対して平均IoU 41.5%を達成しており、モデルをまたいだ汎化性能も示す。

Abstract

プロンプトベースのAI画像編集の急速な民主化は、近年、悪意あるコンテンツの捏造や誤情報に関連するリスクをいっそう深刻化させている。しかし、これらの新しい編集手法を対象とした、偽造（フォージェリ）箇所の局在化手法は、依然として十分に研究されていない。そこで本研究ではまず、主要点（キーポイント）のアラインメントとセマンティック空間の類似性を活用することで、編集された領域に対する正確な教師ありのグラウンドトゥルース・マスクを生成する、完全自動のマスク注釈フレームワークを提案する。このフレームワークに基づき、PromptForge-350kという大規模な偽造局在化データセットを構築する。これは、最先端のプロンプトベースAI画像編集モデル4種類をカバーし、本領域におけるデータ不足を緩和する。さらに、三重ストリームのバックボーンと画像内コントラスト学習を備えた、有効な偽造局在化ネットワークであるICL-Netを提案する。この設計により、モデルは非常に頑健で汎用性の高い鑑識（フォレンジック）特徴を捉えることができる。大規模な実験の結果、本手法はPromptForge-350kでIoU 62.5%を達成し、SOTA手法を5.1%上回ることが示された。加えて、一般的な劣化に対しても強い頑健性を示し、IoUの低下が1%未満である。さらに、未見の編集モデルに対しても有望な汎化能力を示し、平均IoUは41.5%となった。