TableSeq:構造・内容・レイアウトを統合的に生成する手法

arXiv cs.CV / 2026/4/20

📰 ニュースModels & Research

要点

  • TableSeqは、表の構造認識、セル内容認識、セル位置推定を、1つの自己回帰的なシーケンス生成タスクとして統合する画像のみのエンドツーエンド枠組みである。
  • モデルはHTMLタグ、セルテキスト、離散化した座標トークンを相互に埋め込んで生成し、外部OCRや複雑な多段階の後処理なしに、論理構造・内容・幾何情報を整合させる。
  • TableSeqは、軽量な高解像度FCN-H16エンコーダ、最小限の構造事前ヘッド、コンパクトなトランスフォーマーエンコーダを用い、単純な構成を保ちながら難しいレイアウトでも高い性能を維持する。
  • PubTabNet、FinTabNet、SciTSR(CARプロトコル)などのベンチマークで競争力のある、または最先端に近い精度結果が報告され、PubTables-1M(GriTS)でも良好に動作する。
  • 同一の統一シーケンス・インターフェースはインデックスベースの表クエリにも応用でき、ブロック単位のデコードを高速化するためのマルチトークン予測も扱える(精度低下は限定的); コードはGitHubで公開予定である。