ロシアの立法コーパス
arXiv cs.CL / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 1991年から2025年までのロシアの法令を対象にした、大規模で包括的なコーパスが紹介され、合計304,382本の法令テキストと約1億9,440万トークンを含みます。
- データセットは2つのバージョンが提供されており、基本版はシンプルなメタデータのみを含み、詳細版は原文に加えてUniversal DependenciesのCoNLL-U形式への変換データを含みます。
- 詳細版では、品詞、形態素特徴、構文の依存関係といった言語的アノテーションでデータが拡張されています。
- このコーパスは、ロシアの法的言語を扱い、構造化された注釈付きテキストを必要とする下流の研究や開発に活用できる資源として位置づけられています。



