大規模ドキュメント集合をナビゲート:MuDABenchによるマルチドキュメント分析QA

arXiv cs.AI / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、定量的な分析と文書横断の統合を必要とする、大規模で半構造化された文書コレクションに対するマルチドキュメント分析型質問応答のベンチマーク「MuDABench」を提案しています。
  • MuDABenchは、文書メタデータと注釈付きの金融データベースを用いた遠隔教師あり(distant supervision)によって構築され、80,000ページ超と332件の分析QAインスタンスを含みます。
  • 評価プロトコルとして、最終回答の正確性に加えて、中間ファクトのカバレッジを推論品質を診断する補助指標として測定する方法を提案しています。
  • 実験では、文書をフラットな検索プールとして扱う標準的なRAGが、このタスクではうまく機能しないことが示されています。
  • 著者らは、計画・抽出・コード生成をオーケストレーションするマルチエージェント手法を提案し、性能は改善するものの、人間の専門家には依然として大きなギャップが残っていると述べています。主なボトルネックは単一文書の情報抽出精度と、現在のシステムに不足するドメイン知識です。

要旨: 本論文では、大規模な半構造化ドキュメントコレクションに対する分析的質問応答の課題を導入する。私たちは、複数ドキュメントにまたがる分析的QAのためのベンチマークであるMuDABenchを提示する。ここでの問いは、定量的な分析を行うために、多数のドキュメントから情報を抽出し、統合することを要求する。既存の複数ドキュメントQAベンチマークが、典型的には、限られたクロスドキュメント推論によって情報を必要とするドキュメント数が少ないことに対して、MuDABenchは広範なドキュメント間の分析と集約を要求する。ドキュメントレベルのメタデータと注釈付きの金融データベースを活用する遠隔教師あり学習によって構築されたMuDABenchは、80,000ページ超および332件の分析的QAインスタンスから成る。さらに、最終回答の正確性を測定し、推論プロセスに対する補助的な診断シグナルとして中間ファクトのカバレッジを用いる評価プロトコルも提案する。実験の結果、すべてのドキュメントを平坦な検索プールとして扱う標準的なRAGシステムは性能が低いことが明らかになった。これらの制約に対処するために、計画、抽出、コード生成の各モジュールをオーケストレーションするマルチエージェントのワークフローを提案する。このアプローチはプロセス指標と成果指標の両方を大幅に改善する一方で、人間の専門家の性能と比べて依然として大きなギャップが残っている。我々の分析では、主なボトルネックとして2点を特定した。すなわち、単一ドキュメントにおける情報抽出の正確性の不足と、現行システムにおける十分なドメイン固有知識の欠如である。MuDABenchは https://github.com/Zhanli-Li/MuDABench で公開されている。