DenTab:実世界の歯科見積書に対する表認識とビジュアルQAのためのデータセット

arXiv cs.CV / 2026/4/20

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、実世界の歯科見積書に含まれる表を対象に、ノイズの多い管理業務の撮影条件をより反映することを目的とした新しいデータセットDenTabを提案し、2,000枚の表画像(切り抜き)と高品質なHTMLアノテーションを提供する。
  • DenTabは同一入力で表認識(TR)とテーブルのビジュアル質問応答(TableVQA)を扱え、検索・集計・論理/整合性チェックを含む11カテゴリで合計2,208問を収録している。
  • 著者らは16のシステム(14のVLMと2つのOCRベースライン)をベンチマークし、表構造の復元が強くても、多段の算術や整合性の質問で正確性が一貫して得られないことを示しており、その問題はグラウンドトゥルースのHTML表入力を使っても残る。
  • 学習なしで算術の信頼性を高めるために、Table Router Pipelineを提案しており、VLMがベース回答と構造化表現および制約付きの表プログラムを生成し、それをルールベースの実行器で厳密計算する。
  • データセットとコードはGitHubで公開予定であり、表に対する推論をより現実的に評価する研究の促進が期待される。

要旨: 表は重要な取引および管理情報をコンパクトなレイアウトに凝縮しますが、実際の抽出には単なる文字認識以上が必要です。すなわち、システムは構造(行、列、結合セル、見出し)も回復し、さらに一般的な取得アーティファクトのもとで、明細(line items)、小計(subtotals)、合計(totals)といった役割を解釈する必要があります。既存の表構造認識およびTableVQAのための多くのリソースは、クリーンなデジタル由来のデータや、レンダリングされた表に基づいて構築されているため、ノイズの多い管理環境を部分的にしか反映できません。
本研究ではDenTabを導入します。これは歯科の見積書から切り出した2{,}000枚の表画像からなるデータセットで、高品質なHTMLアノテーションを備えており、同一の入力に対して表認識(TR)および表の視覚質問応答(TableVQA)を評価できるようにします。DenTabには、取得(retrieval)、集約(aggregation)、論理/一貫性チェック(logic/consistency checks)にまたがる11のカテゴリに対して、2{,}208問の質問が含まれています。私たちは16のシステムをベンチマークします。内訳は14の視覚言語モデル(VLM)と2つのOCRベースラインです。モデル間で見ても、強い構造回復が多段階の算術および一貫性質問に対する信頼性の高い性能へ一貫してつながるわけではありません。また、その推論失敗は、正解のHTML表入力を用いる場合でも持続します。
学習なしで算術の信頼性を向上させるために、決定的な実行によって算術質問を振り分けるTable Router Pipelineを提案します。このパイプラインは、(i) VLMが基礎となる回答、構造化された表表現、および制約付きの表プログラムを生成し、(ii) ルールベースのエグゼキュータが、解析された表に対して厳密な計算を実行することを組み合わせます。ソースコードとデータセットは https://github.com/hamdilaziz/DenTab で公開します。