Abstract
PDFドキュメントには、図、表、フォームといった重要な視覚要素が含まれており、それらの正確な抽出は、ドキュメント理解およびマルチモーダルなリトリーバル拡張生成(RAG)に不可欠です。既存のPDFパーサは、多雑な視覚表現を見落とすことが多く、情報を含まないアーティファクト(例:透かし、ロゴ)を抽出してしまい、要素を断片化した状態で生成しがちです。また、キャプションをそれに対応する要素と確実に関連付けられないため、下流の検索や質問応答の性能が劣化します。私たちは、空間ヒューリスティック、レイアウト解析、意味的類似度を組み合わせることで、視覚要素を正確に検出し、キャプションを関連付けることができる軽量でプロダクションレベルのPDFパース基盤を提案します。主要なベンチマークデータセットおよび社内のプロダクトデータにおいて、本提案手法は視覚要素検出で=96\%以上の精度、キャプション関連付けで93\%の精度を達成しています。マルチモーダルRAGの前処理ステップとして用いると、社内データおよびMMDocRAGベンチマークの両方で、最先端のパーサおよび大規模なビジョン・言語モデルを大幅に上回り、さらにレイテンシを2\times以上削減します。私たちは、この提案システムを難易度の高い実運用環境に導入しています。