「GPT-Image-2」現場レポート:デプロイ初週に自己申告されたAI生成画像のTwitterデータセット
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- OpenAIの「GPT-Image-2」リリースは、合成されたAI画像と写真の現実の区別がこれまでになく難しくなっている点で、大きな転機だと位置づけられています。
- 研究者は、GPT-image-2のTwitter/X投稿から初週(2026年4月21日のリリース直後)に収集された「GPT-Image-2 Twitter Dataset」を公表し、確認済み画像は10,217枚を含むとしています。
- データセットの作成は、Twitter API v2による収集に加え、多言語(英語・日本語・中国語)のテキスト・ヒューリスティック、ブラウザ自動化による「Made with AI」バッジ検証、モデル名の表記ゆれ照合を組み合わせ、6日間のキュレーション期間で行われています。
- 画像の分析として、CLIPベースの主題分類、OCR(検出可能な文字が82.0%の画像に含まれる)、顔検出(59.2%で計22,583の顔)、意味クラスタリング(137クラスタ)を実施しています。
- 重要なネガティブ結果として、C2PAのコンテンツ・クレデンシャルがTwitterのCDNへのアップロード時に系統的に削除され、ソーシャルメディア由来画像では暗号学的な来歴(プロベナンス)検証が不可能になることが示されています。



