TOPPANホールディングスとグループ会社のTOPPANは4月7日、中世ギリシャ語の写本を解読できるAI-OCR(AIを活用した光学文字認識)エンジンを開発したと発表した。日本語の古文書「くずし字」の解読で培ったAI画像認識技術を転用した。
中世ギリシャ語の写本は、時代や書き手によって字形が異なるうえ、単語の一部が省略されたり現代と異なる綴りが混在したりする。単語間に区切りのない形で文章が続く場合もあり、専門知識のない現代人には判読が困難とされている。ヴァチカン教皇庁図書館が所蔵する約5000点のギリシャ語写本も、コレクション全体に注釈などの付加情報を展開するには中世ギリシャ語を解読できる専門家が長期にわたり作業する必要があり、全体のテキスト化が進まない状況が続いていた。
新エンジンは100万字規模の字形・行データベースを学習データとして用意し、中世ギリシャ語の解読を実現した。TOPPANホールディングス運営の印刷博物館と協力関係にある、ヴァチカン教皇庁図書館が保有する約5000点の写本のうち、既に付加情報を加えた50点と翻刻テキスト(写本の文字を現代の活字に置き換えたもの)をAIに学習させた。専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立するとしている。
TOPPANは2015年から、くずし字で書かれた古文書を解読するAI-OCR技術の研究開発を進めてきた。21年には古文書解読・利活用サービス「ふみのは」を、23年にはスマートフォンで古文書を解読できるアプリ「古文書カメラ」を展開している。TOPPANグループはまた、97年からヴァチカン教皇庁図書館と文化継承プロジェクトを複数手掛けており、29年にわたる協力関係も今回の開発につながったとしている。
今後は、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用い、学習データの蓄積や精度改善を重ね、認識精度95%以上の達成を目指す。取り組みの成果は4月25日から東京・文京区の印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションする。
関連記事
古文書を解読できるiOSアプリ、凸版印刷が無料配信 手書きや木版のくずし字に対応 解読率は90%
凸版印刷は、くずし字解読アプリ「古文書カメラ」(iOS)の配信を始めた。AI-OCR技術を活用したアプリで、スマートフォンで撮影したくずし字をその場で解析できる。
古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用
凸版印刷は、古文書などのくずし字資料をスマートフォンで撮影し、その場で解読できるアプリを発表した。資料館などの調査業務効率化を効率化する狙い。23年1月にiOS版アプリのβ版を公開、3月に正式版を一般販売する予定。
明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで
凸版印刷は、明治期から昭和初期の手書き文字に対応したAI-OCRを開発した。11月から実証実験を行い、2023年4月から正式サービスを開始する予定。
凸版印刷、“くずし字”を解読する画像認識AIを開発 研究機関向けに月額7万円から提供
凸版印刷が画像認識AIを活用して古文書に書かれた“くずし字”の解読を支援するツール「ふみのはゼミ」を開発した。
TOPPAN、生成AI活用でシステム開発期間を最大70%短縮
OPPANホールディングスは、社内システムのプログラム開発業務に特化したLLMを開発し、プログラムの要約やコード作成などに導入したところ、業務時間が最大約70%短縮したと発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.
続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia NEWS アンカーデスクマガジン」の登録が必要です





