AutoFormBench: 自動フォーム理解のためのベンチマークデータセット

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

AutoFormBenchは、政府・医療・企業の実在フォーム計407件を対象に、チェックボックスや入力欄、テキストボックス等の「記入可能要素」を注釈したベンチマークデータセットを提案している。
フォームのレイアウト変動が大きい現実環境でも要素検出とクラス分類を学習・評価できることを目的としている。
比較実験では、従来のOpenCV手法に加えてYOLO系4モデル（YOLOv8, YOLOv11, YOLOv26-s, YOLOv26-l）でPDF上の要素ローカライズ／分類を評価している。
結果として、YOLOv11が全要素クラスおよび許容範囲（tolerance level）においてF1スコアとJaccard accuracyの両面で一貫して最良だったとしている。

Abstract

政府の申請書、医療記録、企業の請求書のような構造化文書の自動処理は、現実の環境で遭遇するレイアウトの多様性が非常に大きいため、依然として継続的な課題となっています。本論文では、自動フォーム処理のためのベンチマークデータセットであるAutoFormBenchを紹介します。AutoFormBenchは、政府、医療、企業の領域にまたがる実世界のフォーム407件を対象に注釈を付与したベンチマークデータセットであり、フォーム要素の検出モデルを訓練および評価することを目的としています。本論文では、記入可能なフォーム要素を位置特定し分類するために、従来のOpenCVアプローチと4つのYOLOアーキテクチャ（YOLOv8、YOLOv11、YOLOv26-s、YOLOv26-l）を体系的に比較します。具体的には、多様なPDF文書タイプにわたって、チェックボックス、入力行、テキストボックスを対象とします。YOLOv11は、すべての要素クラスおよび許容度（tolerance）レベルにおいて、F1スコアとJaccard精度の両方で一貫して優れた性能を示します。