要旨: 生成拡張(RAG)システムは、文書の前処理の品質に決定的に依存するが、下流の質問応答精度への影響という観点でPDF処理フレームワークを評価した先行研究は存在しない。本研究では、このギャップを埋めるために、Docling、MinerU、Marker、DeepSeek OCRの4つのオープンソースPDFからMarkdownへの変換フレームワークを対象に、PDFからテキストおよびその他の内容を抽出するための19のパイプライン構成を体系的に比較した。比較対象は、変換ツール、クリーニング変換、分割戦略、メタデータの強化の違いである。評価は、36のポルトガルの行政文書コーパス(1,706ページ、約492K語)に対して、手作業でキュレーションした50問ベンチマークを用いて実施し、LLM-as-judgeによる採点を10回の実行で平均した。結果を挟み込む2つのベースラインがある:素朴なPDFLoader(86.9%)と、手作業でキュレーションしたMarkdown(97.1%)。階層的分割と画像の説明を用いたDoclingが、最高の自動化精度(94.1%)を達成した。メタデータ強化と階層を意識したチャンク化は、変換フレームワークの選択だけよりも精度に大きく寄与した。フォントに基づく階層の再構築は、一貫してLLMベースの手法よりも優れていた。探索的なGraphRAGの実装は82%のスコアにとどまり、基本的なRAGを下回った。これは、存在論的ガイダンスなしの素朴な知識グラフ構築では、追加される複雑さをまだ正当化できないことを示唆する。これらの知見は、データ準備の品質がRAGシステムの性能における支配的な要因であることを示している。
PDFからRAG対応へ:ドメイン特化型質問応答のためのドキュメント変換フレームワークを評価する
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、RAG(Retrieval-Augmented Generation)の性能は、使用する特定のPDF-to-Markdown変換フレームワークよりも、ドキュメント前処理の選択によってより強く左右されることを示している。
- 4つのオープンソースのPDF変換アプローチ(Docling、MinerU、Marker、DeepSeek OCR)を対象に、36のポルトガルの行政文書からなる50問のベンチマークで、19通りのパイプライン構成を体系的に比較評価する。評価はLLM-as-judgeによるスコアを10回の実行で平均して算出する。
- 自動化された精度が最も高いのは、階層分割と画像の説明を用いたDoclingで(94.1%)、他の変換フレームワークを上回る。
- メタデータの強化や階層を意識したチャンク化は、変換ツールの選択だけよりもQA精度を改善する。また、フォント情報に基づく階層の再構築は、LLMベースの階層再構築に対して一貫して優れている。
- 探索的なGraphRAGの構成は基本的なRAG(82%)よりも低い性能となり、強力なオントロジーガイダンスなしに素朴に知識グラフを構築すると、恩恵よりも複雑性が増してしまう可能性が示唆される。



