LLMベースの意味的評価を用いた表抽出におけるPDFパーサーのベンチマーク

arXiv cs.CV / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

正確な LaTeX のグラウンドトゥルースを備えた合成PDFと、arXiv由来の現実的な表を用いて多様性と複雑さを捉えるPDF表抽出のベンチマークフレームワークを提示します。
中心的な貢献は、表の意味的評価の審査者としてLLMsを用いることであり、パーサー出力の不整合を許容するマッチングパイプラインに統合されています。
人間の検証研究で1,500件を超える品質判断を対象に、LLMベースの評価は人間の判断との相関が著しく高い（Pearson r=0.93）ことを示し、TEDS（r=0.68）およびGriTS（r=0.70）を大きく上回りました。
21の現代的なPDFパーサーを、合成文書100件に含む451表で評価することで、顕著な性能差が明らかになり、表データ抽出のためのパーサー選択に実用的な指針を提供します。
本研究は再現性が高くスケーラブルな評価方法論を提供し、より広い普及のためにGitHubでコードとデータを公開しています。

概要：信頼性をもってPDFから表を抽出することは、巨大な規模の科学データマイニングと知識ベース構築に不可欠ですが、既存の評価アプローチは表の内容の意味的同等性を捉えられないルールベースの指標に依存しています。
現実的な複雑さと多様性を確保するため、正確なLaTeXのグラウンドトゥルースを持つ合成生成されたPDFに基づくベンチマークフレームワークを提示します。テーブルはarXiv由来のものを使用し、現実的な複雑さと多様性を保証します。
意味的なテーブル評価のためのLLMをジャッジとして適用し、パーサ出力の不整合を吸収するマッチング・パイプラインに統合します。
抽出されたテーブルペアに対する1,500を超える品質判断を含む人間による検証研究を通じて、LLMベースの評価が人間の判断との相関を著しく高く達成することを示します（Pearson r=0.93）。これは、Tree Edit Distanceベースの類似度（TEDS、r=0.68）およびGrid Table Similarity（GriTS、r=0.70）と比較して顕著に高いです。
451のテーブルを含む100の合成ドキュメントを対象に、21種類の最新のPDFパーサを評価すると、顕著な性能差が明らかになりました。
私たちの結果は、表形式データ抽出のためのパーサ選択に実践的な指針を提供し、この重要なタスクの再現可能でスケーラブルな評価手法を確立します。
コードとデータ: https://github.com/phorn1/pdf-parse-bench 指標研究と人間による評価: https://github.com/phorn1/table-metric-study