文書パースにおける安定したレイアウトインタフェースのためのパーサ指向型構造リファインメント

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、明示的なDocument Layout Analysis(DLA)パイプラインにおいて、検出器出力を保持・シリアライズしたレイアウトインスタンス集合が、後段パーサへの入力順と不整合になる問題を指摘しています。
  • Denseで重なり合い、境界が曖昧なページでは、保持されたレイアウト仮説が不安定になり、後段の文書解析に致命的な誤り(特に順序・インデックスの不一致)を引き起こし得ると述べています。
  • DETRスタイルの検出器とパーサの間に軽量なstructural refinement段階を挿入し、クエリ特徴・セマンティック手がかり・ボックス幾何・視覚証拠に基づく集合レベル推論によって、インスタンス保持、位置の微修正、パーサ入力順の予測を共同で行う手法を提案しています。
  • retention志向の教師あり信号と難易度に応じたordering目的関数により、複雑なページほど保持集合と最終パーサ入力の整合を改善します。
  • 公開ベンチマークでページ単位のレイアウト品質が一貫して向上し、標準的なエンドツーエンド統合でもシーケンス不一致を大幅に抑え、OmniDocBenchでReading Order Editを0.024に改善したと報告しています。

Abstract

正確なドキュメント解析には、堅牢なコンテンツ認識と安定したパーサ・インターフェースの両方が必要です。明示的なドキュメント・レイアウト解析(DLA)パイプラインでは、下流のパーサは検出器出力の全てを消費しません。その代わり、レイアウト・インスタンスの保持されたシリアライズ済み集合を対象として処理を行います。しかし、重なり合う領域や境界が曖昧な密なページでは、不安定なレイアウト仮説によって、保持されたインスタンス集合が、そのパーサへの入力順序と一致しなくなることがあり、結果として下流で深刻な解析エラーが発生します。そこで本課題に対し、DETRスタイルの検出器とパーサの間に軽量な構造リファインメント段階を導入し、パーサ・インターフェースを安定化させます。提案モジュールは、検出器の生出力をコンパクトな仮説プールとして扱い、クエリ特徴、セマンティックな手掛かり、ボックス幾何、視覚的証拠に対して集合レベルの推論を実行します。共有された洗練済みの構造状態から、インスタンス保持の可否を共同で決定し、ボックスの位置特定を改善し、引き渡しの前にパーサ入力の順序を予測します。さらに、保持を重視した教師あり学習と、困難度に応じた順序付け目的を導入し、特に構造的に複雑なページにおいて、保持されたインスタンス集合と最終的なパーサ入力との整合(順序を含む)をより良く行います。公開ベンチマークでの大規模な実験により、本手法はページ単位のレイアウト品質を一貫して改善することが示されています。標準的なエンドツーエンド解析パイプラインに統合した場合でも、安定化されたパーサ・インターフェースはシーケンスの不一致を大幅に低減し、OmniDocBenchでReading Order Editが0.024となります。