中世イングランドの法的伝統を“民主化”する取り組み

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

英語圏の初期の法記録（省略された中世ラテン語で書かれた大量の手書き文書）を扱うため、193件の中世の刑事・民事事件にまたがるデータセット（4029行）を構築した。
行区切りと手書き認識を行うオープンソースのエンドツーエンド手法を学習し、R-BillaやCNN+LSTM（CTCデコーディング）により79%の単語精度を達成している。
後処理により精度が向上し、n-gram言語モデルで82%に上げ、Gemini Pro 3で誤りを修正すると88%まで改善する。
CNN+LSTMと、TransformerベースOCRであるTrOCRを比較すると、単語精度は同程度でも、TrOCRは“推測”が強く文字精度が低いため、人間が正しい読みを推定しづらくなることが示された。
パイプラインはWebポータル（glyphmachina.com）として公開され、法律研究者・中世研究者・学生が英語の法的伝統へアクセスしやすくなるようにしている。

AI Business

Dev.to

Dev.to

TechCrunch

Dev.to