適応的エンハンスメントによるマルチドメイン小売請求書デジタイズ向けOCRパイプラインのベンチマーク

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、スキャン品質のばらつきやレイアウトの多様性に直面しつつ、5つの異なる小売領域の請求書を対象にした、品質に応じて動作する適応型OCRパイプラインを提案する。
  • CNNベースの画像強調モジュール(自己教師ありによる除デイノイズ学習)と、ラプラシアン分散に基づく画像品質アナライザ(3段階ルーティング)、さらに認信度に基づく適応的なフィードバックループ(反復リトライ)を統合する。
  • 認識後のテキスト精度を高めるために、NLPベースのポストOCR補正レイヤーも加える。
  • 360枚の実世界の多様な小売請求書画像を用いた評価では、手作業アノテーションが不要な状況を想定し、OCRアンサンブルの多数決で定量評価用の正解データを生成する手法を採用している。
  • その結果、CERは18.4%、WERは27.6%で、Raw Tesseractベースラインに対してそれぞれ26.4%と31.2%の改善となり、さらに処理時間3.64秒/枚(EasyOCRより6.4倍高速)や平均PSNR28.7dBの強調効果も示され、再現可能な研究ベンチマークを提供する。

Abstract

複数ドメインの小売請求書ドキュメントのデジタル化は、スキャン品質のばらつき、レイアウトの異種性、商業分野間でのドメイン多様性により、依然として困難な課題である。本論文は、小売請求書のデジタル化を対象として、5つのドメイン(食品スーパー、レストラン、家電・工具店、靴店、衣料品小売)にまたがる、知能的で品質を考慮した適応型 光学式文字認識(OCR)パイプラインを提案し、ベンチマークする。提案システムは、自己教師ありのノイズ除去により学習した畳み込みニューラルネットワーク(CNN)ベースの画像強調モジュール、3段階のルーティングを備えたラプラシアン分散ベースの画像品質アナライザ、反復リトライを伴う信頼度駆動の適応的フィードバックループ、そしてNLPベースのポストOCR補正層を統合する。実験は、360枚の異種混在の実世界小売請求書画像からなるデータセットで実施した。定量評価のための正解データは、手動アノテーションがないシナリオに対して検証済みの手法であるOCRアンサンブル多数決戦略により生成した。提案パイプラインは、文字誤り率(CER)18.4%およびワード誤り率(WER)27.6%を達成しており、Raw Tesseractのベースラインに対してそれぞれ26.4%および31.2%の改善を示す。さらに本パイプラインは、画像あたり108.3語のテキスト密度、ノイズ比率2.3%、ならびに画像あたり3.64秒の処理時間を実現しており、EasyOCRに対して6.4倍の速度優位を有する。強調後のMEDIUMおよびLOW品質画像に対する画質PSNR分析では平均28.7 dBとなり、有意義な強調が確認される。これらの結果により、複数ドメインの小売請求書OCR研究のための再現可能なベンチマークが確立される。