中世イングランドの法的伝統を“民主化”する取り組み
arXiv cs.CV / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 英語圏の初期の法記録(省略された中世ラテン語で書かれた大量の手書き文書)を扱うため、193件の中世の刑事・民事事件にまたがるデータセット(4029行)を構築した。
- 行区切りと手書き認識を行うオープンソースのエンドツーエンド手法を学習し、R-BillaやCNN+LSTM(CTCデコーディング)により79%の単語精度を達成している。
- 後処理により精度が向上し、n-gram言語モデルで82%に上げ、Gemini Pro 3で誤りを修正すると88%まで改善する。
- CNN+LSTMと、TransformerベースOCRであるTrOCRを比較すると、単語精度は同程度でも、TrOCRは“推測”が強く文字精度が低いため、人間が正しい読みを推定しづらくなることが示された。
- パイプラインはWebポータル(glyphmachina.com)として公開され、法律研究者・中世研究者・学生が英語の法的伝統へアクセスしやすくなるようにしている。

