印刷されたティグリニャ文書の認識に向けたTrOCRの適応:クロススクリプト転移学習のための語彙(ワード)対応損失重み付け
arXiv cs.CV / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、TransformerベースのOCRモデル「TrOCR」を、ゲエズ(エチオピア)文字による印刷ティグリニャの認識に初めて適応することを示している。
- 事前学習済みモデルから出発し、バイトレベルBPEトークナイザを230のゲエズ文字をカバーするよう拡張するが、未改変のモデルではゲエズ文字に対して実用に足る出力が得られないと報告している。
- ラテン中心のトークナイゼーション規約が新しい文字体系に適用されることで生じる体系的な語境界エラーを解決するため、語彙(ワード)対応損失重み付け(Word-Aware Loss Weighting)を提案している。
- 適応後の「TrOCR-Printed」は、GLOCRデータセットの合成画像5,000枚のテストで、文字誤り率(CER)0.22%および完全一致精度97.20%を達成している。
- アブレーション研究により、語彙(ワード)対応損失重み付けが決定的な要因であり、語彙拡張のみの場合と比べてCERを2桁分(2 orders of magnitude)低減できることが確認され、学習パイプラインは8GBのコンシューマGPU1台で3時間未満、コード・モデル重み・評価スクリプトは公開されている。




