広告

歴史的トルコ語の自然言語処理のための基盤構築:リソースとモデル

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、HisTR(初の固有表現認識データセット)およびOTA-BOUN(歴史的トルコ語の初のUniversal Dependenciesツリーバンク)を含む、歴史的トルコ語のための基礎的NLPリソースを提示する。
  • 複数の歴史的時代にまたがる、転写(transliteration)された歴史的トルコ語を対象にした厳選済みのクリーンなコーパスであるオスマン文献コーパス(OTC)を導入し、より広範な研究や評価を支える。
  • 主要タスク――固有表現認識、依存関係解析、品詞タグ付け――に対して、トランスフォーマーベースのモデルを訓練・評価し、強い結果を示す(NERで90.29% F1、解析で73.79% LAS、POSタグ付けで94.98% F1)。
  • 残された課題として、ドメイン適応の必要性や、時代ごとに大きな言語変異があることを指摘し、それらがモデルの移植性に影響し得ることを示す。
  • すべてのデータセットおよびモデルはHugging Face(hf.co/bucolin)で公開され、歴史的トルコ語のNLPの今後の進展に向けたベンチマークを確立する。

Abstract

本論文は、計算言語学において十分に探究されてこなかった領域である歴史的トルコ語の自然言語処理(NLP)のための基盤的なリソースとモデルを導入する。われわれは、歴史的トルコ語のための最初の固有表現抽出(NER)データセットであるHisTRと、最初のユニバーサル依存構文(Universal Dependencies)ツリーバンクであるOTA-BOUNを提示する。加えて、これらのデータセットを用いて学習したトランスフォーマーベースのモデルにより、固有表現抽出、依存構文解析、品詞タグ付けのタスクを行う。さらに、幅広い歴史的時代にまたがる、転写(transliteration)された歴史的トルコ語テキストのクリーンなコーパスであるオスマン文本コーパス(Ottoman Text Corpus; OTC)を導入する。実験結果は、歴史的トルコ語の計算的分析における顕著な改善を示し、歴史的言語構造の理解を必要とするタスクで強い性能を達成した。具体的には、固有表現抽出で90.29% F1、依存構文解析で73.79% LAS、品詞タグ付けで94.98% F1である。これらはまた、時代間におけるドメイン適応や言語変種といった既存の課題も明らかにする。本論文で提示するすべてのリソースおよびモデルは、将来の歴史的トルコ語NLPの進展のためのベンチマークとして https://hf.co/bucolin で利用可能である。

広告