ロシアの立法コーパス

arXiv cs.CL / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 1991年から2025年までのロシアの法令を対象にした、大規模で包括的なコーパスが紹介され、合計304,382本の法令テキストと約1億9,440万トークンを含みます。
  • データセットは2つのバージョンが提供されており、基本版はシンプルなメタデータのみを含み、詳細版は原文に加えてUniversal DependenciesのCoNLL-U形式への変換データを含みます。
  • 詳細版では、品詞、形態素特徴、構文の依存関係といった言語的アノテーションでデータが拡張されています。
  • このコーパスは、ロシアの法的言語を扱い、構造化された注釈付きテキストを必要とする下流の研究や開発に活用できる資源として位置づけられています。

Abstract

我々は、1991年から2025年の間に採択されたロシアの一次および二次立法を対象とする包括的なコーパスを提示する。コーパスは304,382件のテキスト(194,425,905トークン)から構成される。コーパスは2つのバージョンで提供される。基本バージョンには単純なメタデータを含むテキストが含まれ、詳細バージョンには、原文と、Universal Dependencies CoNLL-U形式へ変換されたそれらの同等物が含まれる。これらは品詞、形態学的特徴、構文依存関係で注釈が付与されている。