MultiDocFusion:長い産業ドキュメント向けに強化されたRAGのための階層的かつマルチモーダルなチャンク化パイプライン

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MultiDocFusionは、従来のチャンク化では重要な文脈を失いがちな長い産業ドキュメントに対する、検索拡張型QA(RAG)を改善するための構造認識型マルチモーダル・チャンク化パイプラインを提案する。
  • この手法は、視覚に基づくドキュメント領域検出、OCRによるテキスト抽出、そしてLLMベースの階層セクション解析(DSHP-LLM)を組み合わせ、明示的なドキュメント階層を再構築する。
  • その後、テキストを平坦なセグメントとして扱うのではなく、ドキュメントの構造ツリーに整合したDFSベースのグルーピング戦略により階層チャンクを形成する。
  • 産業ベンチマークでの実験により、ベースラインのチャンク化手法に比べて検索精度が8〜15%向上し、ANLSのQAが2〜3%改善することが示される。
  • これらの結果は、マルチモーダルな産業データソースに対する、より高忠実度なRAGのための主要因が、ドキュメント階層を明示的に活用する点であることを示唆している。