歴史的トルコ語の自然言語処理のための基盤構築：リソースとモデル

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、HisTR（初の固有表現認識データセット）およびOTA-BOUN（歴史的トルコ語の初のUniversal Dependenciesツリーバンク）を含む、歴史的トルコ語のための基礎的NLPリソースを提示する。
複数の歴史的時代にまたがる、転写（transliteration）された歴史的トルコ語を対象にした厳選済みのクリーンなコーパスであるオスマン文献コーパス（OTC）を導入し、より広範な研究や評価を支える。
主要タスク――固有表現認識、依存関係解析、品詞タグ付け――に対して、トランスフォーマーベースのモデルを訓練・評価し、強い結果を示す（NERで90.29% F1、解析で73.79% LAS、POSタグ付けで94.98% F1）。
残された課題として、ドメイン適応の必要性や、時代ごとに大きな言語変異があることを指摘し、それらがモデルの移植性に影響し得ることを示す。
すべてのデータセットおよびモデルはHugging Face（hf.co/bucolin）で公開され、歴史的トルコ語のNLPの今後の進展に向けたベンチマークを確立する。

Abstract

本論文は、計算言語学において十分に探究されてこなかった領域である歴史的トルコ語の自然言語処理（NLP）のための基盤的なリソースとモデルを導入する。われわれは、歴史的トルコ語のための最初の固有表現抽出（NER）データセットであるHisTRと、最初のユニバーサル依存構文（Universal Dependencies）ツリーバンクであるOTA-BOUNを提示する。加えて、これらのデータセットを用いて学習したトランスフォーマーベースのモデルにより、固有表現抽出、依存構文解析、品詞タグ付けのタスクを行う。さらに、幅広い歴史的時代にまたがる、転写（transliteration）された歴史的トルコ語テキストのクリーンなコーパスであるオスマン文本コーパス（Ottoman Text Corpus; OTC）を導入する。実験結果は、歴史的トルコ語の計算的分析における顕著な改善を示し、歴史的言語構造の理解を必要とするタスクで強い性能を達成した。具体的には、固有表現抽出で90.29% F1、依存構文解析で73.79% LAS、品詞タグ付けで94.98% F1である。これらはまた、時代間におけるドメイン適応や言語変種といった既存の課題も明らかにする。本論文で提示するすべてのリソースおよびモデルは、将来の歴史的トルコ語NLPの進展のためのベンチマークとして https://hf.co/bucolin で利用可能である。

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

歴史的トルコ語の自然言語処理のための基盤構築：リソースとモデル

要点

Abstract

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer