Agentar-Fin-OCR

arXiv cs.CV / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • Agentar-Fin-OCRは、金融分野の文書に特化した文書解析システムとして紹介され、超長尺のPDFを意味的に一貫した、構造化された出力へと変換し、監査品質の由来情報を付与します。
  • Cross-page Contents ConsolidationとDocument-level Heading Hierarchy Reconstructionを組み合わせ、ページ間の連続性を回復し、構造認識検索のためのグローバルに一貫したTOCツリーを構築します。
  • 難易度適応型カリキュラム学習戦略と、外部検出器を使わずデコーダの隠れ状態から表セルを局在化するCellBBoxRegressorモジュールを併用します。
  • FinDocBenchを導入し、6つの金融文書カテゴリと TocEDS、クロスページTEDS、表セルIoUなどの指標を用いて金融文書の表解析を評価します。
  • 実験はFinDocBench上で最先端モデルの性能を示し、Agentar-Fin-OCRを信頼性の高い下流の金融文書アプリケーションの実用的基盤として位置づけます。
本論文では、金融分野の文書に特化した文書解析システム Agentar-Fin-OCR を提案します。超長尺の金融PDFを意味的に一貫し高精度で構造化された出力へと変換し、監査品質の出典情報を付与します。金融特有の課題である複雑なレイアウト、ページ間の構造的不連続、セルレベルの参照能力に対処するため、Agentar-Fin-OCR は (1) ページ間の連続性を回復する Cross-page Contents Consolidation アルゴリズムと、構造認識に基づくグローバルな目次ツリーを構築する Document-level Heading Hierarchy Reconstruction (DHR) モジュールを組み合わせ、(2) 表の解析の難易度に適応するカリキュラム学習トレーニング戦略と、外部検出器を用いずにデコーダの隠れ状態から表セルを局在化する構造的アンカートークンを用いる CellBBoxRegressor モジュールを併用します。実験では OmniDocBench の表解析指標で高い性能を示しました。金融分野での現実的な評価を可能にするため、FinDocBench を導入します。FinDocBench は6つの金融文書カテゴリを含み、専門家による検証済みの注釈と、Table of Contents の編集距離ベースの類似度(TocEDS)、ページ跨ぎの連結TEDS、表セルの IoU(C-IoU)などの評価指標を含みます。FinDocBench 上で最先端モデルを広範に評価し、金融文書における能力と残る限界を検討します。総じて、Agentar-Fin-OCR と FinDocBench は、信頼性の高い下流の金融文書アプリケーションの実用的な基盤を提供します。

Agentar-Fin-OCR | AI Navigate