DISCO:比較評価のための文書インテリジェンススイート

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DISCOは、OCRパイプラインと視覚言語モデル(VLM)を、さまざまな文書タイプにわたってパースと質問応答の観点でそれぞれ個別に評価する「文書インテリジェンススイート」として導入されます。
  • このベンチマークは、手書き文字、多言語の文字体系、医療用フォーム、インフォグラフィック、複数ページの文書など、現実世界での難しい特性を扱います。
  • 結果からは、タスクと文書の複雑さによって大きな性能差が見られ、構造や推論の必要性を意識して文書処理戦略を選ぶべきであることが示されています。
  • OCRパイプラインは、テキスト量の多い推論に対するテキストの基盤(テキスト・グラウンディング)が強いため、手書きや長い/複数ページの文書でうまく機能する傾向があります。一方、VLMは多言語テキストや視覚的に情報量の多いレイアウトで強みを持ちます。
  • タスクを意識したプロンプトは結果がまちまちで、一部の文書タイプでは改善するものの他では悪化させるため、プロンプト選定には慎重さが必要であることが強調されています。

要旨: 文書インテリジェンスには、正確なテキスト抽出と、文書内容に対する信頼性の高い推論が必要です。私たちは、
\textbf{DISCO}、すなわち
\emph{比較評価のための文書インテリジェンス・スイート(Document Intelligence Suite for COmparative Evaluation)} を導入します。DISCO は、多様な文書タイプ(手書き文字、多言語の文字体系、医療フォーム、インフォグラフィックス、複数ページにまたがる文書など)にわたって、パース(解析)と質問応答の両面で、光学式文字認識(OCR)パイプラインと視覚言語モデル(VLM)をそれぞれ個別に評価します。評価の結果、性能は課題と文書特性の間で大きく変動することが分かり、複雑性を考慮したアプローチ選択の必要性が強調されます。一般に、OCR パイプラインは、手書きや長い/複数ページの文書に対してより信頼性が高く、そこでは明示的なテキストの根拠付けが、テキスト中心の推論を支えます。一方で、VLM は多言語テキストや視覚的に情報量の多いレイアウトでより良い性能を示します。タスクに応じたプロンプトは効果がまちまちで、ある文書タイプでは性能を向上させる一方、別のタイプでは低下させます。これらの知見は、文書の構造と推論に対する要求に基づいて文書処理戦略を選択するための経験的な指針を提供します。