GlotOCR Bench：OCRモデルは少数のUnicodeスクリプトを超える領域でもなお苦戦

arXiv cs.CL / 2026/4/15

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

新しいOCR一般化ベンチマーク「GlotOCR Bench」を導入し、100以上のUnicodeスクリプトにまたがるOCR性能を、実テキスト由来のクリーン/劣化画像で評価します。
画像生成はGoogle Fonts、HarfBuzz（字形処理）、FreeType（ラスタライズ）を用い、LTR/RTL双方に対応し、手動レビューで正しいレンダリングを確認しています。
評価の結果、多くのオープン/プロプライエタリなVision-Languageモデルは10スクリプト未満で良好でも、最強クラスでも30スクリプト超への一般化に失敗することが示されました。
性能はスクリプトごとの事前学習カバレッジと強く連動しており、視覚認識だけでなく言語モデル側の事前学習がOCRにも大きく依存している可能性が示唆されます。
未知スクリプトでは無意味なノイズ出力や、近い既知スクリプトの文字の「幻覚」のような誤りが多く見られ、再現性のためベンチとパイプラインが公開されました。