GPT4o-Receipt: AI生成ドキュメント鑑識のためのデータセットと人間研究
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- GPT4o-Receiptは、GPT-4oが生成したレシートと正規のレシートを対にした1,235件のレシート画像データセットを提供するとともに、5つの最先端マルチモーダルLLMによる評価と、30名のアノテータによる知覚研究を実施しています。
- 研究は、人間はAIアーティファクトを視覚的には把握する能力で機械を上回る一方で、AI生成文書を検出する総合的な能力では劣ることを示しています。アノテータはこれまでで最大の視覚識別ギャップを示す一方、二値検出のF1はClaude Sonnet 4およびGemini 2.5 Flashより低いことが示されました。
- AI生成レシートにおける主要な鑑識信号は算術エラー(例:小計の不正など)で、肉眼の検査には見えませんが、LLMsによってミリ秒単位で検証可能です。
- 結果は、モデル間で著しい性能格差とキャリブレーションの差を明らかにし、単純な正確さ指標だけでは検出器の選択に信頼性が欠けることを示しています。著者らはGPT4o-Receiptとすべての結果を公表し、将来のAI文書鑑識研究を支援します。
要旨:人間はAI生成の金融文書を機械よりもよく検出できるのだろうか?私たちはGPT4o-Receiptを提示します。これは、確立されたデータセットからの正規のレシートとGPT-4oが生成したレシートを対にした1,235件のレシート画像のベンチマークで、5つの最先端マルチモーダルLLMと30名のアノテータによるクラウドソーシング知覚研究で評価されています。私たちの発見は、驚くべき逆説を示します。人間はAIアーティファクトを視覚的には見るのが得意ですが、AI文書を検出することにはむしろ劣ります。人間のアノテータは、いずれの評価者よりも最大の視覚識別ギャップを示しますが、二値検出のF1はClaude Sonnet 4およびGemini 2.5 Flashより大幅に低くなっています。この逆説は、仕組みを理解すると解決します。AI生成レシートにおける支配的な鑑識信号は算術エラーで、視覚的検査には見えませんが、LLMsによって系統的に検証可能です。人間は小計が誤っていることを認識できませんが、LLMsはそれをミリ秒で検証します。人間とLLMの比較を超えて、5モデルの評価は著しい性能格差とキャリブレーションの差を示し、単純な正確さ指標が検出器選択には不十分であることを示します。GPT4o-Receipt、評価フレームワーク、およびすべての結果は、将来のAI文書鑑識研究を支援するために公開されています。
