軽量かつ本番対応のPDF視覚要素パース(解析)

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、PDF内の視覚要素(図、表、フォーム)とキャプションの対応付けを確実に行う、軽量で本番対応可能なパース(解析)フレームワークを提案している。
  • 既存のPDFパーサが抱える、複雑な視覚要素の取りこぼし、ウォーターマークやロゴなど無関係なアーティファクトの抽出、要素の分断、キャプションと要素の紐付け失敗といった課題を解決することを狙っている。
  • 空間ヒューリスティック、レイアウト解析、セマンティック類似度の組み合わせにより、ベンチマークおよび社内のプロダクトデータで視覚要素検出精度96%以上、キャプション対応精度93%を報告している。
  • マルチモーダルRAGの前処理として用いると、社内データおよびMMDocRAGベンチマークの両方で、従来の最先端パーサや大規模なビジョン・ランゲージモデルよりも大きく優れ、レイテンシも2倍超に削減できるという。
  • 著者らは、厳しい本番環境に実際に展開(デプロイ)済みであると述べており、実運用の観点での実用性を強調している。

Abstract

PDFドキュメントには、図、表、フォームといった重要な視覚要素が含まれており、それらの正確な抽出は、ドキュメント理解およびマルチモーダルなリトリーバル拡張生成(RAG)に不可欠です。既存のPDFパーサは、多雑な視覚表現を見落とすことが多く、情報を含まないアーティファクト(例:透かし、ロゴ)を抽出してしまい、要素を断片化した状態で生成しがちです。また、キャプションをそれに対応する要素と確実に関連付けられないため、下流の検索や質問応答の性能が劣化します。私たちは、空間ヒューリスティック、レイアウト解析、意味的類似度を組み合わせることで、視覚要素を正確に検出し、キャプションを関連付けることができる軽量でプロダクションレベルのPDFパース基盤を提案します。主要なベンチマークデータセットおよび社内のプロダクトデータにおいて、本提案手法は視覚要素検出で=96\%以上の精度、キャプション関連付けで93\%の精度を達成しています。マルチモーダルRAGの前処理ステップとして用いると、社内データおよびMMDocRAGベンチマークの両方で、最先端のパーサおよび大規模なビジョン・言語モデルを大幅に上回り、さらにレイテンシを2\times以上削減します。私たちは、この提案システムを難易度の高い実運用環境に導入しています。