InstructTable:指示による表構造認識の改善

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、セルの結合や空セルを含む複雑なレイアウトに対する表構造認識(TSR)を改善するための、指示に基づくマルチステージ学習フレームワークであるInstructTableを提示する。
  • 表の指示による事前学習を組み合わせて、細かな構造パターンの学習を促進しつつ、TSRの微調整により強い視覚情報モデリングを維持する。
  • 大規模な学習と評価を支えるために、著者らは真正な表データを合成するための、テンプレート非依存手法であるTable Mix Expand(TME)を提案する。
  • TMEを用いて、900枚の複雑な合成表画像からなるBCDSTabベンチマークを構築し、InstructTableがFinTabNet、PubTabNet、MUSTARDの各ベンチマークにおいて最先端のTSR性能を達成することを報告する。
  • アブレーション実験により、表データに特化した指示と合成データ生成手法の両方が、精度向上に寄与していることが示される。

要旨: 表構造認識(TSR)は、表画像を構造化された表現に解析することで広範な実用的重要性を持っていますが、結合セルや空セルを含む複雑なレイアウトを扱う際に大きな課題に直面します。従来の視覚中心のモデルは、視覚情報のみに依存しており、重要なセマンティック(意味)サポートを欠くため、複雑な状況における正確な構造認識を妨げます。視覚言語モデルは文脈セマンティクスを活用して理解を深めますが、こうしたアプローチは視覚的な構造情報のモデリングを十分に重視していません。これらの制約に対処するため、本論文では、指示に導かれたマルチステージ学習TSRフレームワークであるInstructTableを提案します。精密に設計された表の指示事前学習により、微細な構造パターンへの注意が促され、複雑な表の理解が向上します。補完的なTSR微調整では、堅牢な視覚情報のモデリングを維持し、多様な状況において高い精度で表の解析を実現します。さらに、TME(Table Mix Expand)を導入します。これは、大規模な本物の表データを合成するための、テンプレート不要の革新的手法です。TMEを活用して、Balanced Complex Dense Synthetic Tables(BCDSTab)ベンチマークを構築します。本手法により合成した900枚の複雑な表画像から成り、厳密なベンチマークとして機能します。複数の公開データセット(FinTabNet、PubTabNet、MUSTARD)およびBCDSTabに対する広範な実験により、InstructTableがTSRタスクにおいて最先端の性能を達成することが示されます。アブレーション研究では、提案する表データ固有の指示と合成データが有益な影響を与えることもさらに確認されます。