文書パースにおける安定したレイアウトインタフェースのためのパーサ指向型構造リファインメント
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、明示的なDocument Layout Analysis(DLA)パイプラインにおいて、検出器出力を保持・シリアライズしたレイアウトインスタンス集合が、後段パーサへの入力順と不整合になる問題を指摘しています。
- Denseで重なり合い、境界が曖昧なページでは、保持されたレイアウト仮説が不安定になり、後段の文書解析に致命的な誤り(特に順序・インデックスの不一致)を引き起こし得ると述べています。
- DETRスタイルの検出器とパーサの間に軽量なstructural refinement段階を挿入し、クエリ特徴・セマンティック手がかり・ボックス幾何・視覚証拠に基づく集合レベル推論によって、インスタンス保持、位置の微修正、パーサ入力順の予測を共同で行う手法を提案しています。
- retention志向の教師あり信号と難易度に応じたordering目的関数により、複雑なページほど保持集合と最終パーサ入力の整合を改善します。
- 公開ベンチマークでページ単位のレイアウト品質が一貫して向上し、標準的なエンドツーエンド統合でもシーケンス不一致を大幅に抑え、OmniDocBenchでReading Order Editを0.024に改善したと報告しています。




