アブストラクト: 今日の企業向けドキュメントAIの多くはパイプラインです。解析し、インデックス化し、検索し、生成する。それぞれの段階は単独で研究し尽くされている――しかし難しいのは、システム全体として評価することです。
私たちは EnterpriseDocBench を構築し、それに一石を投じました。解析の忠実度、インデックスの効率、検索の関連性、生成の根拠性を、同一のコーパス上で評価します。このコーパスは、6つの企業ドメインにまたがる公開され、許容的ライセンスが付与されたドキュメントから構築されます(現在のパイロットでは5つを代表)。そこに対して3つのパイプライン――BM25、密な埋め込み、ハイブリッド――を、すべて同じ GPT-5 のジェネレータで実行しました。
注目すべき数値は次のとおりです。ハイブリッド検索が BM25 をわずかに上回ります(nDCG@5 が 0.92 対 0.91)、そして両者とも密な埋め込み(0.83)を上回っています。幻覚はドキュメント長に応じて単調に増えるわけではありません――短い文書と非常に長い文書はいずれも、中程度の文書よりも幻覚が多くなります(28.1% と 23.8% 対 9.2%)。段階間の相関は非常に弱く、解析→検索 r=0.14、解析→生成 r=0.17、検索→生成 r=0.02 です。品質が私たちの多くが想定するようにカスケード的に効いているなら、これらの数値はもっと高くなるはずですが、そうではありません。設計上の注意点もあります(解析は固定、ジェネレータは共有、そして自動化された代理指標)ので、結果を過大に売り込むことはしません。
ただ、私たちが本当に驚かされた結果があります。明示された主張に対する事実の正確性は 85.5% ですが、回答の網羅性の平均は 0.40 です。システムは答えを当てるときは正しいのですが、単に取りこぼしがあるのです。このギャップは、見出しの精度数値以上に、実運用の導入において重要になります。
また、3つの参照アーキテクチャ(ColPali、ColQwen2、エージェント的な複雑性ベースのルーティング)についても説明しますが、これらはまだエンドツーエンドで統合されていません。受理が決まり次第、フレームワーク、指標、ベースライン、およびコレクション用スクリプトをオープンソースとして公開します。
複雑なマルチモーダル文書処理パイプラインのベンチマーク:エンタープライズAI向け統一評価フレームワーク
arXiv cs.AI / 2026/4/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンタープライズ向け文書AIは一般に(解析→索引化→検索→生成の)複数段パイプラインで構成される一方で、各段を個別に評価する研究に比べてシステム全体を通した評価は依然として難しいと論じています。
- 6つのエンタープライズ領域にまたがるコーパスと統一評価フレームワーク EnterpriseDocBench を提案し、GPT-5ジェネレーターを共通に用いた3つの検索パイプライン(BM25、密ベクトル、ハイブリッド)について、解析の忠実度、索引化の効率、検索の関連性、生成の根拠づけを同一基準で評価します。
- 結果として、ハイブリッド検索はBM25をわずかに上回り(nDCG@5: 0.92 vs. 0.91)、両者はいずれも密ベクトル埋め込み(0.83)より優れていることが示されます。また、幻覚(ハルシネーション)は文書長と単調には増えません。
- 段間の相関は非常に弱く(例:解析→検索 r=0.14、解析→生成 r=0.17、検索→生成 r=0.02)、パイプライン段階をまたいで品質が大きく“連鎖(カスケード)”するという前提に疑問を投げかけています。
- 述べられた主張に対する事実性(factual accuracy)は比較的高い一方(85.5%)、平均の回答網羅性(answer completeness)は低い(0.40)ことが分かり、欠落が見出し精度よりも実運用上重要な弱点になり得ると示唆されています。
