現実世界でのドキュメント解析に向けて:現実的なシーン合成とドキュメント対応型トレーニング

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、カジュアルに撮影された、あるいは標準外のドキュメント条件下で、従来型およびエンドツーエンドのドキュメント解析システムが失敗する問題に取り組む。課題の改善に向けて、データセットの品質と構造を意識した学習を強化する。
  • 大規模で構造的に多様な、ページ全体にわたるエンドツーエンドの教師データを生成するための「現実的シーン合成(Realistic Scene Synthesis)」と、段階的学習および構造トークン最適化を用いる「ドキュメント対応型トレーニング手順(Document-Aware Training Recipe)」を組み合わせた、データと学習の共同設計(data-training co-design)アプローチを提案する。
  • 著者らはまた、実世界で撮影されたドキュメントから構築したベンチマーク「Wild-OmniDocBench」を作成し、多様な撮影シナリオにまたがる頑健性を評価する。
  • 実験により、このアプローチをパラメータ1BのマルチモーダルLLMに統合することで、スキャンされたドキュメント/デジタルドキュメントおよび実世界で撮影されたドキュメントの両方において、精度と頑健性の向上が示される。
  • 本研究では、将来の研究を支えるために、モデル、データ合成パイプライン、ベンチマークを公開すると述べている。

要旨: ドキュメントパースは近年、多モーダル大規模言語モデル(MLLM)によって、文書画像を直接構造化された出力へ写像することで大きく進展しました。従来のカスケード型パイプラインは、正確なレイアウト解析に依存しており、手軽に撮影された場合や非標準な条件下ではしばしば破綻します。エンドツーエンド手法はこの依存を緩和しますが、それでもなお、反復的で幻覚の混じった、かつ構造的に一貫しない予測が見られます。主な原因は、大規模で高品質なフルページ(文書レベル)のエンドツーエンドパースデータの不足と、構造を意識した学習戦略の欠如にあります。これらの課題に対処するため、頑健なエンドツーエンド・ドキュメントパースのためのデータと学習の共同設計フレームワークを提案します。現実的シーン合成(Realistic Scene Synthesis)戦略は、レイアウトテンプレートと豊富な文書要素を組み合わせることで、大規模かつ構造的に多様なフルページのエンドツーエンド監督を構築します。一方、文書対応(Document-Aware)トレーニング・レシピは、段階的学習と構造トークンの最適化を導入し、構造の忠実性とデコードの安定性を高めます。さらに、実世界で撮影された文書から導出したロバスト性評価用ベンチマークであるWild-OmniDocBenchを構築します。1BパラメータのMLLMに統合することで、スキャン/デジタルと実世界で撮影された状況の両方において、より高い精度と頑健性を実現します。すべてのモデル、データ合成パイプライン、ベンチマークは、文書理解に関する今後の研究を推進するために公開されます。