広告

歴史新聞OCRにおける状態空間モデル(State-Space Models)とトランスフォーマー、BiLSTMベースモデルのベンチマーク

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MambaベースのOCRアーキテクチャを用いた線形時間の状態空間モデル(SSM)を、歴史新聞の文字起こしに対するトランスフォーマーおよびBiLSTMベースの認識器と比較してベンチマークし、長系列および劣化したレイアウトの課題に対処する。
  • (著者らの知る限り)初めて、SSMに基づくOCRアーキテクチャを提案し、CNNの視覚エンコーダと、双方向および自己回帰のMambaによる系列モデリングを組み合わせる。さらに、複数のデコーディング戦略(CTC、自己回帰、非自己回帰)を評価する。
  • 新たに公開された、検証済みゴールド標準が99%以上のルクセンブルク新聞データでの実験に加え、Fraktur/Antiquaに対するデータセット横断テストを行う。その結果、すべてのニューラルシステムが約2% CERに到達し、計算効率が主要な差別化要因となる。
  • Mambaベースのモデルは精度競争力を維持しつつ、推論時間をおよそ半減し、メモリのスケーリングも改善する。強い劣化条件下での段落レベルの結果では、6.07% CER(DANの5.24%に対し)と良好な性能を示す。
  • 著者らは、再現可能で大規模な文化遺産OCR開発を支援するために、コード、学習済みモデル、標準化された評価プロトコルを公開する。

要旨: 歴史的新聞に対するエンドツーエンドOCRは、モデルが長いテキスト列、劣化した印刷品質、複雑なレイアウトを扱わなければならないため、依然として困難です。Transformerベースの認識器が現在の研究を主導していますが、その二次計算量は、段落単位の効率的な書き起こしや大規模展開を制限しています。本研究では、OCRにおけるTransformerベースの系列モデリングに代わるスケーラブルな手法として、線形時間のState-Space Model(SSM)、具体的にはMambaを調査します。
我々の知る限り、SSMに基づく最初のOCRアーキテクチャとして、CNNによる視覚エンコーダと、双方向および自己回帰型のMambaによる系列モデリングを組み合わせる提案を行い、SSMとTransformerおよびBiLSTMベースの認識器を比較する大規模ベンチマークを実施します。同一の学習条件のもとで、複数のデコーディング戦略(CTC、自己回帰、および非自己回帰)を評価し、強力なニューラルベースライン(VAN、DAN、DANIEL)と、広く用いられている既製のOCRエンジン(PERO-OCR、Tesseract OCR、TrOCR、Gemini)と並べます。
ルクセンブルク国立図書館(Biblioth\`eque nationale du Luxembourg)の歴史的新聞を対象とした実験では、新たに公開された>99%の検証済みゴールド標準アノテーションと、FrakturおよびAntiquaの各系統に対するデータセット横断テストを行います。その結果、すべてのニューラルモデルが低い誤り率(~2% CER)を達成し、計算効率が主な差別化要因であることが示されます。Mambaベースのモデルは競争力のある精度を維持しつつ、推論時間を半減し、優れたメモリスケーリング(1000 charsで1.26x対2.30xの増加)を示します。また、深刻に劣化した段落レベルで6.07% CERを達成し、DANの5.24%に比べつつ、それでも2.05x高速のまま維持します。
再現可能な研究を可能にし、大規模な文化遺産OCRに携わる実務者を導くため、コード、学習済みモデル、および標準化された評価プロトコルを公開します。

広告