GlotOCR Bench:OCRモデルは少数のUnicodeスクリプトを超える領域でもなお苦戦
arXiv cs.CL / 2026/4/15
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 新しいOCR一般化ベンチマーク「GlotOCR Bench」を導入し、100以上のUnicodeスクリプトにまたがるOCR性能を、実テキスト由来のクリーン/劣化画像で評価します。
- 画像生成はGoogle Fonts、HarfBuzz(字形処理)、FreeType(ラスタライズ)を用い、LTR/RTL双方に対応し、手動レビューで正しいレンダリングを確認しています。
- 評価の結果、多くのオープン/プロプライエタリなVision-Languageモデルは10スクリプト未満で良好でも、最強クラスでも30スクリプト超への一般化に失敗することが示されました。
- 性能はスクリプトごとの事前学習カバレッジと強く連動しており、視覚認識だけでなく言語モデル側の事前学習がOCRにも大きく依存している可能性が示唆されます。
- 未知スクリプトでは無意味なノイズ出力や、近い既知スクリプトの文字の「幻覚」のような誤りが多く見られ、再現性のためベンチとパイプラインが公開されました。




