現実世界でのドキュメント解析に向けて：現実的なシーン合成とドキュメント対応型トレーニング

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、カジュアルに撮影された、あるいは標準外のドキュメント条件下で、従来型およびエンドツーエンドのドキュメント解析システムが失敗する問題に取り組む。課題の改善に向けて、データセットの品質と構造を意識した学習を強化する。
大規模で構造的に多様な、ページ全体にわたるエンドツーエンドの教師データを生成するための「現実的シーン合成（Realistic Scene Synthesis）」と、段階的学習および構造トークン最適化を用いる「ドキュメント対応型トレーニング手順（Document-Aware Training Recipe）」を組み合わせた、データと学習の共同設計（data-training co-design）アプローチを提案する。
著者らはまた、実世界で撮影されたドキュメントから構築したベンチマーク「Wild-OmniDocBench」を作成し、多様な撮影シナリオにまたがる頑健性を評価する。
実験により、このアプローチをパラメータ1BのマルチモーダルLLMに統合することで、スキャンされたドキュメント/デジタルドキュメントおよび実世界で撮影されたドキュメントの両方において、精度と頑健性の向上が示される。
本研究では、将来の研究を支えるために、モデル、データ合成パイプライン、ベンチマークを公開すると述べている。

要旨: ドキュメントパースは近年、多モーダル大規模言語モデル（MLLM）によって、文書画像を直接構造化された出力へ写像することで大きく進展しました。従来のカスケード型パイプラインは、正確なレイアウト解析に依存しており、手軽に撮影された場合や非標準な条件下ではしばしば破綻します。エンドツーエンド手法はこの依存を緩和しますが、それでもなお、反復的で幻覚の混じった、かつ構造的に一貫しない予測が見られます。主な原因は、大規模で高品質なフルページ（文書レベル）のエンドツーエンドパースデータの不足と、構造を意識した学習戦略の欠如にあります。これらの課題に対処するため、頑健なエンドツーエンド・ドキュメントパースのためのデータと学習の共同設計フレームワークを提案します。現実的シーン合成（Realistic Scene Synthesis）戦略は、レイアウトテンプレートと豊富な文書要素を組み合わせることで、大規模かつ構造的に多様なフルページのエンドツーエンド監督を構築します。一方、文書対応（Document-Aware）トレーニング・レシピは、段階的学習と構造トークンの最適化を導入し、構造の忠実性とデコードの安定性を高めます。さらに、実世界で撮影された文書から導出したロバスト性評価用ベンチマークであるWild-OmniDocBenchを構築します。1BパラメータのMLLMに統合することで、スキャン/デジタルと実世界で撮影された状況の両方において、より高い精度と頑健性を実現します。すべてのモデル、データ合成パイプライン、ベンチマークは、文書理解に関する今後の研究を推進するために公開されます。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

現実世界でのドキュメント解析に向けて：現実的なシーン合成とドキュメント対応型トレーニング

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer