IWLV-Ramayana: ヴァールミーキ『ラーマーヤナ』のインド諸言語にまたがる、サルガ(章)対応の並列コーパス
arXiv cs.CL / 2026/4/16
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ヴァールミーキ『ラーマーヤナ』を複数のインド諸言語にわたって扱う、サルガ(章)対応の並列データセットであるIWLVラーマーヤナ・コーパスを紹介する。
- 現在、英語およびマラヤーラム語の全層を提供しており、ヒンディー語、タミル語、カンナダ語、テルグ語の各層は積極的に作成中である。
- コーパスは構造化されたJSONL形式で公開され、追跡可能性と学術的な再利用を支える明示的な来歴(プロベナンス)メタデータを含む。
- 著者らは、このデータセットを比較文学、コーパス言語学、デジタル・ヒューマニティーズ、多言語NLPアプリケーションのためのものとして位置づけている。
- 本データセットは、機械可読形式および来歴メタデータを備えた、ヴァールミーキ『ラーマーヤナ』に関する初のサルガ対応の多言語並列コーパスであると主張している。




