RAGによる金融質問応答におけるPDFパースおよびチャンク分割の実証的評価

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、特にPDFパース手法およびテキスト／表のチャンク分割戦略といった設計上の選択が、Retrieval-Augmented Generation（RAG）の性能に与える影響を、金融文書の質問応答で検証する。
それぞれ異なるオーバーラップ設定を用いて、文書構造の保持と回答の正確性向上とのトレードオフを理解するために、複数のPDFパーサおよびチャンク分割手法を評価する。
本研究は、金融ドメインのベンチマークに基づいており、新たに生成された公開ベンチマークであるTableQuest（表形式のPDF理解に焦点を当てる）を含む。
著者らは、テキスト、表、画像といった多様なPDFコンテンツに最適化した、より頑健なRAGパイプラインを構築するための、実務的かつエビデンスに基づく指針を提供することを目指している。

概要: PDFファイルは主として自動処理ではなく、人間が読むために意図されています。さらに、PDFのテキスト、表、画像のような異種混在のコンテンツは、解析や情報抽出に対して大きな課題をもたらします。これらの困難に対処するために、実務者と研究者の両方が、注目されるRetrieval-Augmented Generation（RAG）システムを含め、自動化されたPDF処理のための新しい手法をますます開発しています。しかし、PDFを理解するためのRAGシステムの性能に、異なるコンポーネントや設計上の選択がどのように影響するのかを調査した包括的な研究は存在しません。本論文では、そのような研究を提案します（1）特定の言語理解タスクである質問応答に焦点を当て、（2）金融領域の2つのベンチマークを活用します。その中には、私たちが新たに生成し、公開可能なベンチマークであるTableQuestが含まれます。私たちは、複数のPDFパーサとチャンク分割戦略（重なりを変化させたもの）を体系的に検討し、文書構造を保持し、回答の正確性を保証することにおけるそれらの潜在的な相乗効果を評価します。全体として、私たちの結果は、PDF理解のための堅牢なRAGパイプラインを構築するための実践的な指針を提供します。