TajikNLP:タジク語(キリル文字)向けのオープンソース、包括的テキスト処理ツールキット
arXiv cs.CL / 2026/5/7
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- TajikNLPは、キリル文字で書かれるタジク語に対して公開されているNLPリソースの大きな不足を埋めることを目的とした、新たに公開されたオープンソースPythonツールキットです。
- 単一のDocオブジェクトを核とするモジュール型のエンドツーエンド処理パイプラインを提供し、クリーニング、正規化、トークン化(サブワードBPEを含む)、形態素分割、品詞タグ付け、ステミング、レマタイゼーション、文分割までをカバーします。
- タジク語の膠着的な名詞・動詞の屈折により適切に対応するため、統合形態エンジンを導入し、制御モードと深い分析モードを用意しています。
- さらに、語彙ベースのセンチメント分析機能や、Hugging Face Hubから事前学習済みのWord2Vec/FastText埋め込みを読み込める点も特徴です。
- 再現性と今後の研究のために、付随するデータセット(POS付きコーパス、センチメント辞書、地名ガゼッタ、個人名データ)が許容的ライセンスで公開され、616件の自動テストによって93%のソースコードカバレッジを達成しています。




