歴史新聞OCRにおける状態空間モデル（State-Space Models）とトランスフォーマー、BiLSTMベースモデルのベンチマーク

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MambaベースのOCRアーキテクチャを用いた線形時間の状態空間モデル（SSM）を、歴史新聞の文字起こしに対するトランスフォーマーおよびBiLSTMベースの認識器と比較してベンチマークし、長系列および劣化したレイアウトの課題に対処する。
（著者らの知る限り）初めて、SSMに基づくOCRアーキテクチャを提案し、CNNの視覚エンコーダと、双方向および自己回帰のMambaによる系列モデリングを組み合わせる。さらに、複数のデコーディング戦略（CTC、自己回帰、非自己回帰）を評価する。
新たに公開された、検証済みゴールド標準が99%以上のルクセンブルク新聞データでの実験に加え、Fraktur/Antiquaに対するデータセット横断テストを行う。その結果、すべてのニューラルシステムが約2% CERに到達し、計算効率が主要な差別化要因となる。
Mambaベースのモデルは精度競争力を維持しつつ、推論時間をおよそ半減し、メモリのスケーリングも改善する。強い劣化条件下での段落レベルの結果では、6.07% CER（DANの5.24%に対し）と良好な性能を示す。
著者らは、再現可能で大規模な文化遺産OCR開発を支援するために、コード、学習済みモデル、標準化された評価プロトコルを公開する。

要旨: 歴史的新聞に対するエンドツーエンドOCRは、モデルが長いテキスト列、劣化した印刷品質、複雑なレイアウトを扱わなければならないため、依然として困難です。Transformerベースの認識器が現在の研究を主導していますが、その二次計算量は、段落単位の効率的な書き起こしや大規模展開を制限しています。本研究では、OCRにおけるTransformerベースの系列モデリングに代わるスケーラブルな手法として、線形時間のState-Space Model（SSM）、具体的にはMambaを調査します。
我々の知る限り、SSMに基づく最初のOCRアーキテクチャとして、CNNによる視覚エンコーダと、双方向および自己回帰型のMambaによる系列モデリングを組み合わせる提案を行い、SSMとTransformerおよびBiLSTMベースの認識器を比較する大規模ベンチマークを実施します。同一の学習条件のもとで、複数のデコーディング戦略（CTC、自己回帰、および非自己回帰）を評価し、強力なニューラルベースライン（VAN、DAN、DANIEL）と、広く用いられている既製のOCRエンジン（PERO-OCR、Tesseract OCR、TrOCR、Gemini）と並べます。
ルクセンブルク国立図書館（Biblioth\`eque nationale du Luxembourg）の歴史的新聞を対象とした実験では、新たに公開された>99%の検証済みゴールド標準アノテーションと、FrakturおよびAntiquaの各系統に対するデータセット横断テストを行います。その結果、すべてのニューラルモデルが低い誤り率（~2% CER）を達成し、計算効率が主な差別化要因であることが示されます。Mambaベースのモデルは競争力のある精度を維持しつつ、推論時間を半減し、優れたメモリスケーリング（1000 charsで1.26x対2.30xの増加）を示します。また、深刻に劣化した段落レベルで6.07% CERを達成し、DANの5.24%に比べつつ、それでも2.05x高速のまま維持します。
再現可能な研究を可能にし、大規模な文化遺産OCRに携わる実務者を導くため、コード、学習済みモデル、および標準化された評価プロトコルを公開します。