要旨: ユーラシア大陸全域で2億人以上が話すトルコ諸語族に対する自然言語処理は、いまだ断片化しており、ほとんどの言語で統一されたツール群やリソースが欠けています。私たちは、4つの文字体系――ラテン文字、キリル文字、ペルソ・アラビア文字、および古トルコ文字ルーン文字――にわたるトルコ諸語すべてを対象として、単一で一貫したNLPパイプラインを提供するオープンソースのPythonライブラリ「TurkicNLP」を提示します。このライブラリは、トークン化、形態素解析、品詞タグ付け、依存関係解析、固有表現認識、双方向の文字転写、多言語間センテンス埋め込み、および言語非依存なAPIによる機械翻訳をカバーします。モジュール化されたマルチバックエンドのアーキテクチャにより、ルールベースの有限状態トランスデューサとニューラルモデルを透過的に統合し、文字体系の自動検出と、文字バリアント間でのルーティングを行います。出力は完全な相互運用性と拡張のためにCoNLL-U標準に従います。コードとドキュメントは https://github.com/turkic-nlp/turkicnlp に掲載されています。
TurkicNLP: テュルク諸語のためのNLPツールキット
arXiv cs.CL / 2026/3/27
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- TurkicNLPは、現在一貫したツールや共有リソースが不足しているテュルク諸語向けに、NLPパイプラインを統一することを目的としたオープンソースのPython NLPツールキットです。
- このライブラリは、ラテン文字、キリル文字、ペルソ・アラビア文字、古代テュルク文字(ルーン文字)などの複数の文字体系を、文字種自動検出と適切な処理経路へのルーティングによってサポートします。
- トークン化、形態素解析、品詞タグ付け、依存構文解析、固有表現認識、そしてクロスリンガルな文埋め込みを含むエンドツーエンドのNLP機能に加え、単一の言語非依存APIによる機械翻訳も提供します。
- TurkicNLPは、モジュール化されたマルチバックエンド設計を採用しており、さまざまなタスクに対して、ルールベースの有限状態トランスデューサとニューラルモデルを透過的に組み合わせられます。
- 出力は相互運用性を高め、ツールキットの拡張を容易にするために、CoNLL-U標準形式で整形されます。コードはGitHubで公開されています。
広告
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



