GlotOCR Bench:OCRモデルは少数のUnicodeスクリプトを超える領域でもなお苦戦

arXiv cs.CL / 2026/4/15

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 新しいOCR一般化ベンチマーク「GlotOCR Bench」を導入し、100以上のUnicodeスクリプトにまたがるOCR性能を、実テキスト由来のクリーン/劣化画像で評価します。
  • 画像生成はGoogle Fonts、HarfBuzz(字形処理)、FreeType(ラスタライズ)を用い、LTR/RTL双方に対応し、手動レビューで正しいレンダリングを確認しています。
  • 評価の結果、多くのオープン/プロプライエタリなVision-Languageモデルは10スクリプト未満で良好でも、最強クラスでも30スクリプト超への一般化に失敗することが示されました。
  • 性能はスクリプトごとの事前学習カバレッジと強く連動しており、視覚認識だけでなく言語モデル側の事前学習がOCRにも大きく依存している可能性が示唆されます。
  • 未知スクリプトでは無意味なノイズ出力や、近い既知スクリプトの文字の「幻覚」のような誤りが多く見られ、再現性のためベンチとパイプラインが公開されました。