軽量かつ本番対応のPDF視覚要素パース（解析）

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、PDF内の視覚要素（図、表、フォーム）とキャプションの対応付けを確実に行う、軽量で本番対応可能なパース（解析）フレームワークを提案している。
既存のPDFパーサが抱える、複雑な視覚要素の取りこぼし、ウォーターマークやロゴなど無関係なアーティファクトの抽出、要素の分断、キャプションと要素の紐付け失敗といった課題を解決することを狙っている。
空間ヒューリスティック、レイアウト解析、セマンティック類似度の組み合わせにより、ベンチマークおよび社内のプロダクトデータで視覚要素検出精度96%以上、キャプション対応精度93%を報告している。
マルチモーダルRAGの前処理として用いると、社内データおよびMMDocRAGベンチマークの両方で、従来の最先端パーサや大規模なビジョン・ランゲージモデルよりも大きく優れ、レイテンシも2倍超に削減できるという。
著者らは、厳しい本番環境に実際に展開（デプロイ）済みであると述べており、実運用の観点での実用性を強調している。

Abstract

PDFドキュメントには、図、表、フォームといった重要な視覚要素が含まれており、それらの正確な抽出は、ドキュメント理解およびマルチモーダルなリトリーバル拡張生成（RAG）に不可欠です。既存のPDFパーサは、多雑な視覚表現を見落とすことが多く、情報を含まないアーティファクト（例：透かし、ロゴ）を抽出してしまい、要素を断片化した状態で生成しがちです。また、キャプションをそれに対応する要素と確実に関連付けられないため、下流の検索や質問応答の性能が劣化します。私たちは、空間ヒューリスティック、レイアウト解析、意味的類似度を組み合わせることで、視覚要素を正確に検出し、キャプションを関連付けることができる軽量でプロダクションレベルのPDFパース基盤を提案します。主要なベンチマークデータセットおよび社内のプロダクトデータにおいて、本提案手法は視覚要素検出で

=96\%

以上の精度、キャプション関連付けで

93\%

の精度を達成しています。マルチモーダルRAGの前処理ステップとして用いると、社内データおよびMMDocRAGベンチマークの両方で、最先端のパーサおよび大規模なビジョン・言語モデルを大幅に上回り、さらにレイテンシを

2\times

以上削減します。私たちは、この提案システムを難易度の高い実運用環境に導入しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/28Dailyインサイトを見る →

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

軽量かつ本番対応のPDF視覚要素パース（解析）

要点

Abstract

💡 この記事が使われたインサイト

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Claude Codeのフックで開発ワークフローを自動化する方法

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer