要旨: テーブル構造認識(TSR)には、複雑なテーブルレイアウトを扱うための大規模言語モデル(LLM)の論理的推論能力が必要ですが、現在のデータセットは規模と品質の面で限界があり、この推論能力を効果的に活用できていません。そこで本研究では、複数のソースから収集・生成して作成した新しいテーブル構造認識データセットであるTableNetを提示します。私たちのアプローチの中核は、私たちが開発した最初のLLM駆動の自律的なテーブル生成・認識のマルチエージェントシステムです。生成部分では、可視・構造・意味の制御可能なパラメータを統合し、テーブル画像の合成に反映します。これにより、アノテーション付きで、ユーザーが定義した構成に適応可能な、意味的に一貫した多種多様なテーブルの作成が可能となり、大規模かつ詳細なデータセット構築を支援します。この能力により、テーブル画像の注釈タクソノミを包括的かつきめ細かく構築でき、テーブル関連領域の研究を前進させる可能性があります。従来のデータ収集手法とは対照的に、本アプローチは、理論上無限で、ドメインに依存せず、かつスタイルに柔軟なテーブル画像の生成を可能にし、効率と精度の両方を保証します。認識部分では、複数のソースから得られたテーブルを用いる、多様性に基づく能動学習のパラダイムを採用します。そして、最も情報量の多いデータを選択的にサンプリングしてモデルを微調整し、ベースラインと比較して学習サンプル数を大幅に削減しながらTableNetのテストセットで競争力のある性能を達成します。さらに、主要なテーブルデータセットで学習したモデルと比べて、ウェブからクロールした現実のテーブルに対しては、はるかに高い性能を示します。私たちの知る限り、行数や列数、結合セル、セル内容などが多様である点を備えた、テーブルの構造認識への能動学習を採用した最初の研究です。これは、多様性に基づく能動学習により適しています。
TableNet:LLMによる自律化で実現する大規模テーブル・データセット
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のTSR(テーブル構造認識)データセットの規模と品質に関する限界を解決するために、複数のソースから作成した大規模なテーブル構造認識(TSR)データセットであるTableNetを導入する。
- 制御可能な視覚・構造・意味のパラメータに基づいてテーブル画像を生成しつつ、大規模に整合した注釈を同時に生成する、類例のないLLM駆動の自律的マルチエージェントシステムを提案する。
- モデル学習のために、著者らは多様性ベースのアクティブラーニング戦略を適用し、ソース間から最も有益なテーブルを選択してTSRモデルを微調整することで、必要な学習サンプル数を削減する。
- 報告された結果では、TableNetのテストセットにおいて競争力のある性能が示され、さらに、主に単一データセットのソースで学習したモデルと比べて、ウェブからクロールした現実世界のテーブルに対する一般化がより強いことが分かる。
- 本研究は、多様性ベースのアクティブラーニングと、行/列ごとに変化するTSR設定、結合セル、セル内容を扱う設定を組み合わせる点に独自性があると主張しており、テーブル関連領域におけるデータセット/モデル開発をより効率的にすることを可能にする。




