OCR評価手法と指標に関する調査：歴史資料の不可視性

arXiv cs.CV / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、OCRおよび文書理解システムが（2006〜2025年にかけて）どのように評価されているかを調査し、歴史的または周縁化されたアーカイブよりも、現代的で西洋的な制度文書に評価が偏っていることを見出す。
黒人の歴史新聞やそれに類するコミュニティが作成した文書は、報告される学習データやベンチマークデータセットに含まれることが稀であると報告しており、その結果として、システムが何に対して試験されているのかに関する盲点が生じている。
レビューは、多くの評価が文字の正確性や表層タスクの成否に焦点を当てている一方で、歴史資料に共通する構造的な失敗モード（たとえば、コラムの崩壊、組版（タイポグラフィ）の誤り、ハルシネーションによる文字列の生成）を見落としがちであることを示す。
アーカイブ／実証の文脈を用いて、本研究は、これらの評価ギャップが「構造的な不可視性」および表象上の害（representational harm）につながっていることを論じる。その要因は、組織・制度の行動、ベンチマークのインセンティブ、データガバナンスの選択により駆動されている。
著者らは、ベンチマークおよびガバナンス設計が、視覚トランスフォーマーやマルチモーダルOCRシステムによる体系的な誤った表象を防ぐために、歴史文書の複雑さをより適切に反映すべきだと提案する。