中世イングランドの法的伝統を“民主化”する取り組み

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 英語圏の初期の法記録(省略された中世ラテン語で書かれた大量の手書き文書)を扱うため、193件の中世の刑事・民事事件にまたがるデータセット(4029行)を構築した。
  • 行区切りと手書き認識を行うオープンソースのエンドツーエンド手法を学習し、R-BillaやCNN+LSTM(CTCデコーディング)により79%の単語精度を達成している。
  • 後処理により精度が向上し、n-gram言語モデルで82%に上げ、Gemini Pro 3で誤りを修正すると88%まで改善する。
  • CNN+LSTMと、TransformerベースOCRであるTrOCRを比較すると、単語精度は同程度でも、TrOCRは“推測”が強く文字精度が低いため、人間が正しい読みを推定しづらくなることが示された。
  • パイプラインはWebポータル(glyphmachina.com)として公開され、法律研究者・中世研究者・学生が英語の法的伝統へアクセスしやすくなるようにしている。