TajikNLP:タジク語(キリル文字)向けのオープンソース、包括的テキスト処理ツールキット

arXiv cs.CL / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • TajikNLPは、キリル文字で書かれるタジク語に対して公開されているNLPリソースの大きな不足を埋めることを目的とした、新たに公開されたオープンソースPythonツールキットです。
  • 単一のDocオブジェクトを核とするモジュール型のエンドツーエンド処理パイプラインを提供し、クリーニング、正規化、トークン化(サブワードBPEを含む)、形態素分割、品詞タグ付け、ステミング、レマタイゼーション、文分割までをカバーします。
  • タジク語の膠着的な名詞・動詞の屈折により適切に対応するため、統合形態エンジンを導入し、制御モードと深い分析モードを用意しています。
  • さらに、語彙ベースのセンチメント分析機能や、Hugging Face Hubから事前学習済みのWord2Vec/FastText埋め込みを読み込める点も特徴です。
  • 再現性と今後の研究のために、付随するデータセット(POS付きコーパス、センチメント辞書、地名ガゼッタ、個人名データ)が許容的ライセンスで公開され、616件の自動テストによって93%のソースコードカバレッジを達成しています。

TajikNLP:タジク語(キリル文字)向けのオープンソース、包括的テキスト処理ツールキット | AI Navigate