歴史的トルコ語の自然言語処理のための基盤構築:リソースとモデル
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、HisTR(初の固有表現認識データセット)およびOTA-BOUN(歴史的トルコ語の初のUniversal Dependenciesツリーバンク)を含む、歴史的トルコ語のための基礎的NLPリソースを提示する。
- 複数の歴史的時代にまたがる、転写(transliteration)された歴史的トルコ語を対象にした厳選済みのクリーンなコーパスであるオスマン文献コーパス(OTC)を導入し、より広範な研究や評価を支える。
- 主要タスク――固有表現認識、依存関係解析、品詞タグ付け――に対して、トランスフォーマーベースのモデルを訓練・評価し、強い結果を示す(NERで90.29% F1、解析で73.79% LAS、POSタグ付けで94.98% F1)。
- 残された課題として、ドメイン適応の必要性や、時代ごとに大きな言語変異があることを指摘し、それらがモデルの移植性に影響し得ることを示す。
- すべてのデータセットおよびモデルはHugging Face(hf.co/bucolin)で公開され、歴史的トルコ語のNLPの今後の進展に向けたベンチマークを確立する。



