判読困難な「中世ギリシャ語」を読み取り、TOPPANがAI-OCR開発 日本語の「くずし字」解読技術を活用

ITmedia AI+ / 2026/4/7

📰 ニュースIndustry & Market MovesModels & Research

要点

  • TOPPANグループが、中世ギリシャ語写本を解読できるAI-OCRエンジンを開発し、AI画像認識技術を日本語の「くずし字」解読で培った知見から転用したと発表した。
  • 中世ギリシャ語写本は字形や綴りの揺れ、区切りのない記述などで判読が難しく、ヴァチカン教皇庁図書館所蔵の約5000点でも全体のテキスト化が進みにくかった課題が背景にある。
  • 新エンジンは100万字規模の字形・行データベースで学習し、教皇庁図書館の付加情報付き50点と翻刻テキストを用いて学習、専門家の目視確認と組み合わせて精度と品質を両立するとしている。
  • 今後は画像・テキストデータを追加して学習を継続し、認識精度95%以上の達成を目指し、4月25日から印刷博物館の企画展でデモンストレーションする計画だ。

 TOPPANホールディングスとグループ会社のTOPPANは4月7日、中世ギリシャ語の写本を解読できるAI-OCR(AIを活用した光学文字認識)エンジンを開発したと発表した。日本語の古文書「くずし字」の解読で培ったAI画像認識技術を転用した。

 中世ギリシャ語の写本は、時代や書き手によって字形が異なるうえ、単語の一部が省略されたり現代と異なる綴りが混在したりする。単語間に区切りのない形で文章が続く場合もあり、専門知識のない現代人には判読が困難とされている。ヴァチカン教皇庁図書館が所蔵する約5000点のギリシャ語写本も、コレクション全体に注釈などの付加情報を展開するには中世ギリシャ語を解読できる専門家が長期にわたり作業する必要があり、全体のテキスト化が進まない状況が続いていた。

 新エンジンは100万字規模の字形・行データベースを学習データとして用意し、中世ギリシャ語の解読を実現した。TOPPANホールディングス運営の印刷博物館と協力関係にある、ヴァチカン教皇庁図書館が保有する約5000点の写本のうち、既に付加情報を加えた50点と翻刻テキスト(写本の文字を現代の活字に置き換えたもの)をAIに学習させた。専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立するとしている。

 TOPPANは2015年から、くずし字で書かれた古文書を解読するAI-OCR技術の研究開発を進めてきた。21年には古文書解読・利活用サービス「ふみのは」を、23年にはスマートフォンで古文書を解読できるアプリ「古文書カメラ」を展開している。TOPPANグループはまた、97年からヴァチカン教皇庁図書館と文化継承プロジェクトを複数手掛けており、29年にわたる協力関係も今回の開発につながったとしている。

 今後は、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用い、学習データの蓄積や精度改善を重ね、認識精度95%以上の達成を目指す。取り組みの成果は4月25日から東京・文京区の印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションする。

関連記事

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia NEWS アンカーデスクマガジン」の登録が必要です