DocShield:証拠に基づくエージェント的推論によるAIドキュメント安全性に向けて

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DocShieldは、テキスト中心の改ざん検出、ローカライズ(位置特定)、説明を、別々の手順ではなく単一の「視覚-論理の共同推論」問題として扱う統一フレームワークとして提案される。
  • 証拠に基づくエージェント的推論のために、視覚的な異常をテキストの意味論と反復的に相互検証する、Cross-Cues-aware Chain of Thought(CCT)メカニズムを導入する。
  • この手法では、推論構造、空間的な証拠、真正性予測を整合させるために、GRPO最適化戦略とWeighted Multi-Task Reward(重み付きマルチタスク報酬)を用いる。
  • 本論文では、ピクセルレベルの操作マスクと専門家によるテキスト説明を含む、多言語のドキュメント風テキスト画像データセットであるRealText-V1も提示され、より信頼性の高い鑑識評価を支援することを目的としている。
  • 実験では、既存の特化手法およびGPT-4oに対してベンチマーク上で大幅な改善が報告されており(特に、特化フレームワークに対してマクロ平均F1が+41.4%)、著者らはデータセット、モデル、コードを公開する予定である。

概要: 生成AIの急速な進展により、文書中心(テキスト中心)の、ますます現実的な画像改ざんが可能になり、文書の安全性に対して重大な課題をもたらしています。既存のフォレンジック手法は主に視覚的な手がかりに依存しており、微細なテキスト改ざんを暴くための、根拠に基づく推論が欠けています。検出、局所化、説明はしばしば別々の作業として扱われるため、信頼性や解釈可能性が制限されます。これらの課題に対処するため、私たちは、テキスト中心の改ざん解析を「視覚‐論理の共同推論(visual-logical co-reasoning)」問題として定式化する、最初の統一フレームワークである DocShield を提案します。中核となるのは、新規の「Cross-Cues-aware Chain of Thought(CCT)」メカニズムであり、暗黙的なエージェント的推論を可能にします。すなわち、視覚的異常とテキストの意味論を反復的に相互検証し、首尾一貫した、根拠に基づくフォレンジック解析を生成します。さらに、GRPO による最適化のための「Weighted Multi-Task Reward(重み付きマルチタスク報酬)」を導入し、推論構造、空間的な証拠、信頼性(真正性)予測を整合させます。フレームワークに加えて、ピクセルレベルの操作マスクと専門家レベルのテキストによる説明を備えた、文書風のテキスト画像の多言語データセット RealText-V1 を構築します。大規模な実験の結果、DocShield は既存手法を大きく上回り、専門フレームワークに対して T-IC13 でマクロ平均 F1 を 41.4% 改善し、さらに GPT-4o に対しても 23.4% 改善しました。また、困難な T-SROIE ベンチマークでも一貫した向上が確認されています。私たちのデータセット、モデル、コードは公開予定です。