TurkicNLP: テュルク諸語のためのNLPツールキット

arXiv cs.CL / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

TurkicNLPは、現在一貫したツールや共有リソースが不足しているテュルク諸語向けに、NLPパイプラインを統一することを目的としたオープンソースのPython NLPツールキットです。
このライブラリは、ラテン文字、キリル文字、ペルソ・アラビア文字、古代テュルク文字（ルーン文字）などの複数の文字体系を、文字種自動検出と適切な処理経路へのルーティングによってサポートします。
トークン化、形態素解析、品詞タグ付け、依存構文解析、固有表現認識、そしてクロスリンガルな文埋め込みを含むエンドツーエンドのNLP機能に加え、単一の言語非依存APIによる機械翻訳も提供します。
TurkicNLPは、モジュール化されたマルチバックエンド設計を採用しており、さまざまなタスクに対して、ルールベースの有限状態トランスデューサとニューラルモデルを透過的に組み合わせられます。
出力は相互運用性を高め、ツールキットの拡張を容易にするために、CoNLL-U標準形式で整形されます。コードはGitHubで公開されています。

要旨: ユーラシア大陸全域で2億人以上が話すトルコ諸語族に対する自然言語処理は、いまだ断片化しており、ほとんどの言語で統一されたツール群やリソースが欠けています。私たちは、4つの文字体系――ラテン文字、キリル文字、ペルソ・アラビア文字、および古トルコ文字ルーン文字――にわたるトルコ諸語すべてを対象として、単一で一貫したNLPパイプラインを提供するオープンソースのPythonライブラリ「TurkicNLP」を提示します。このライブラリは、トークン化、形態素解析、品詞タグ付け、依存関係解析、固有表現認識、双方向の文字転写、多言語間センテンス埋め込み、および言語非依存なAPIによる機械翻訳をカバーします。モジュール化されたマルチバックエンドのアーキテクチャにより、ルールベースの有限状態トランスデューサとニューラルモデルを透過的に統合し、文字体系の自動検出と、文字バリアント間でのルーティングを行います。出力は完全な相互運用性と拡張のためにCoNLL-U標準に従います。コードとドキュメントは https://github.com/turkic-nlp/turkicnlp に掲載されています。