適応的エンハンスメントによるマルチドメイン小売請求書デジタイズ向けOCRパイプラインのベンチマーク
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、スキャン品質のばらつきやレイアウトの多様性に直面しつつ、5つの異なる小売領域の請求書を対象にした、品質に応じて動作する適応型OCRパイプラインを提案する。
- CNNベースの画像強調モジュール(自己教師ありによる除デイノイズ学習)と、ラプラシアン分散に基づく画像品質アナライザ(3段階ルーティング)、さらに認信度に基づく適応的なフィードバックループ(反復リトライ)を統合する。
- 認識後のテキスト精度を高めるために、NLPベースのポストOCR補正レイヤーも加える。
- 360枚の実世界の多様な小売請求書画像を用いた評価では、手作業アノテーションが不要な状況を想定し、OCRアンサンブルの多数決で定量評価用の正解データを生成する手法を採用している。
- その結果、CERは18.4%、WERは27.6%で、Raw Tesseractベースラインに対してそれぞれ26.4%と31.2%の改善となり、さらに処理時間3.64秒/枚(EasyOCRより6.4倍高速)や平均PSNR28.7dBの強調効果も示され、再現可能な研究ベンチマークを提供する。



