AEGIS：AI生成された学術画像の法科学的解析を評価するための包括的ベンチマーク

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

共有:

要点

本論文では、AI生成された学術画像に対する法科学的解析を評価するための包括的ベンチマーク「AEGIS」を提案し、7つの学術カテゴリと39の細分サブタイプをカバーします。
AEGISは、ドメイン固有の複雑性を導入しており、GPT-5.1でも全体で48.80%にとどまり、専門モデルでも位置特定精度（IoU 30.09%）が限定的であることを示します。
学術分野でよく用いられる4つの改ざん手法を、25の生成モデルに適用した多様な改ざんシミュレーションを用い、法科学的精度が50%未満に落ちるケースが多く、生成能力に対して法科学が遅れていることを明らかにします。
ベンチマークでは検出・推論・ローカライズの複数次元で評価し、モデル系統間の補完的な強みを示します（例：MLLMは84.74%でテキストのアーティファクト認識、専門検出器は79.54%で二値の真正性判定）。
25の主要MLLM、9つの専門モデル、そして統合型のマルチモーダル理解/生成モデルを評価することで、AEGISは学術画像フォレンジックの根本的な限界を可視化する診断用テストベッドとして位置付けられます。

要旨: 本稿では、AI生成の学術画像に対する法医学的解析を評価するための、包括的ベンチマークであるAEGISを紹介する。既存のベンチマークと比較して、AEGISは3つの主要な進歩を備えている。(1) ドメイン特化の複雑性: 7つの学術カテゴリを39の細分化されたサブタイプでカバーし、内在的な法医学的困難さを明らかにする。ここでは、GPT-5.1でさえ全体性能が48.80%にとどまり、専門モデルは限定的なローカライズ精度（IoU 30.09%）しか達成できない。(2) 多様な改ざんシミュレーション: 25の生成モデルにわたり、4つの一般的な学術改ざん戦略をモデル化する。11の戦略では平均の法医学的精度が50%を下回り、法医学が生成の進歩に遅れを取っていることを示している。そして(3) 多次元の法医学的評価: 検出、推論、ローカライズを共同で評価し、モデルファミリ間の補完的な強みを明らかにする。具体的には、マルチモーダル大規模言語モデル（MLLM）はテキスト上のアーティファクト認識で84.74%の精度を達成し、一方で専門の検出器は二値の真正性検出で79.54%の精度を最大値としている。25の主要MLLM、9つの専門モデル、および統一されたマルチモーダル理解・生成モデルを評価することで、AEGISは、学術画像フォレンジックにおける根本的な制約を露呈する診断用のテストベッドとして機能する。