筆者は人それぞれ:歴史的アラビア写本のための筆者識別

arXiv cs.LG / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この研究は、歴史的なアラビア写本における筆者識別を行い、由来(プロベナンス)や真正性の検証、歴史・言語分析を支援することを目的としています。
  • Muharafデータセットを用いて、著者らは公開部分の筆者ラベルを手作業で検証・補完し、不整合なラベルや非手書きテキストを除去するなどデータを整備しました。
  • 閉集合(closed-set)の筆者識別のために、注意機構付きのCNNベースモデルを提案し、まれな「二人の筆者による行」は複合の筆者ペアクラスとして扱います。
  • 14通りの構成とアブレーション評価の結果、より難しいページ非重複(page-disjoint)プロトコルでは大きく性能が低下し、ページ単位の手がかりの重要性が定量化されました。
  • 線ごとの評価とページ非重複評価の両方について初のベースラインを提示し、コードと実装をGitHubで公開することで、歴史家や言語学者の実務に役立てる狙いがあります。

Abstract

手書きのアラビア写本は、アラブ世界の知的・文化的な遺産を保存しており、書き手の識別は由来の確立、真正性の検証、そして歴史的分析を支援する。歴史的アラビア写本のデータセットであるMuharafを用いて、個々の行画像からの書き手識別を評価し、また我々の知る限り、行レベルおよびページ非重複(page-disjoint)評価プロトコルの双方のもとで報告された初のベースラインを提示する。データセットは書き手識別について部分的にしかラベル付けされていないため、公的に公開されている部分において、6,858(28.00%)から21,249行(86.75%)へ手作業で書き手ラベルを検証し拡張した。これにより不整合を修正し、非手書きのテキストを除去した。さらに絞り込みを行った結果、18,987行(77.51%)を保持した。閉集合(closed-set)の書き手識別のために、注意機構を備えた畳み込みニューラルネットワーク(CNN)ベースのモデルを提案する。これには、複合された書き手ペアクラスとしてモデル化した稀な二人書き(two-writer)の行も含む。14の構成についてベンチマークし、異なる特徴抽出器および学習設定(training regime)にまたがるアブレーションを実施する。未知のページに対する一般化を評価するために、ページ非重複プロトコルでは、各ページのすべての行を単一の分割(split)に割り当てる。行レベルプロトコルでは、注意機構付きで微調整したDenseNet201が、99.05%のTop-1精度、99.73%のTop-5精度、そして97.44%のF1スコアを達成する。より難しいページ非重複プロトコルでは、観測された最良の結果は、78.61%のTop-1精度、87.79%のTop-5精度、そして66.55%のF1スコアであり、ページ単位の手がかり(page-level cues)の影響を定量化する。Muharafデータセットのラベル付け済み部分集合を拡張し、両方のプロトコルを報告することで、より明確なベンチマークと、文化的・歴史的に重要な文書に取り組む歴史家や言語学者にとって実用的なリソースを提供する。コードおよび実装の詳細はGitHubで公開されている。