IWLV-Ramayana: ヴァールミーキ『ラーマーヤナ』のインド諸言語にまたがる、サルガ(章)対応の並列コーパス

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、ヴァールミーキ『ラーマーヤナ』を複数のインド諸言語にわたって扱う、サルガ(章)対応の並列データセットであるIWLVラーマーヤナ・コーパスを紹介する。
  • 現在、英語およびマラヤーラム語の全層を提供しており、ヒンディー語、タミル語、カンナダ語、テルグ語の各層は積極的に作成中である。
  • コーパスは構造化されたJSONL形式で公開され、追跡可能性と学術的な再利用を支える明示的な来歴(プロベナンス)メタデータを含む。
  • 著者らは、このデータセットを比較文学、コーパス言語学、デジタル・ヒューマニティーズ、多言語NLPアプリケーションのためのものとして位置づけている。
  • 本データセットは、機械可読形式および来歴メタデータを備えた、ヴァールミーキ『ラーマーヤナ』に関する初のサルガ対応の多言語並列コーパスであると主張している。

Abstract

ラーマーヤナは、南アジアおよび東南アジアにおける最も影響力のある文学伝統の一つであり、過去2千年にわたって、数多くの言語的・文化的文脈をまたいで伝えられてきました。地域ごとのラーマーヤナ伝統に関する広範な研究があるにもかかわらず、体系的な言語横断分析を可能にする計算資源は依然として限られています。本論文では、IWLV ラーマーヤナコーパスを紹介します。これは、ヴァールミーキのラーマーヤナを、サルガ(章)のレベルで、複数のインド諸言語にまたがって対応付ける、構造化された並列コーパスです。このコーパスには現在、完全な英語層とマラヤーラム語層が含まれており、ヒンディー語、タミル語、カンナダ語、テルグ語の各層は作成(アクティブな制作)中です。データセットは、明示的な出自(プロヴナンス)メタデータを備えた、構造化JSONL形式で配布されます。これにより、比較文学、コーパス言語学、デジタル・ヒューマニティーズ、多言語自然言語処理といった応用が可能になります。私たちの知る限り、本研究は、出自メタデータを明示し、機械可読形式で提供される、ヴァールミーキのラーマーヤナのサルガ対応(sarga-aligned)多言語並列コーパスとしては初めてのものです。