TDATR：Table Detail-Aware Learning とセルレベルの視覚アラインメントによるエンドツーエンド表認識の改善

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、従来のモジュール型パイプラインに比べて、表の構造理解とセル／内容理解の統合を高めるエンドツーエンドの表認識手法 TDATR を提案する。
TDATR は「perceive-then-fuse（認識してから融合）」という設計を採用し、言語モデリングの枠組みのもとで構造と内容に焦点を当てた複数のタスクをまず実行することで、さまざまな文書タイプに対する頑健性を高める。
次に、学習した暗黙的な表の詳細を融合して構造化された HTML 出力を生成し、データ制約のある環境でも学習をより効率的かつ効果的にすることを狙う。
さらに、セルの位置を特定し、視覚と言語のアラインメントを強化するための構造ガイド付きセルローカライゼーションモジュールを追加し、解釈可能性と精度の両方を向上させる。
本手法は、データセット固有の微調整なしで 7 つのベンチマークにおいて最先端または極めて競争力のある結果を報告しており、強い汎化性能が示唆される。