要旨: 少数言語における自然言語処理(NLP)への関心の高まりにもかかわらず、口承の言語遺産の保存におけるギャップはまだ埋められていません。とりわけ即興詩(extemporaneous poetry)――リアルタイムの即興にもとづくパフォーマンス型のジャンルであり、韻律的・修辞的な能力(metrical-rhetorical competence)を要するもの――は、計算言語学においてほとんど未開拓の領域にとどまっています。この方法論上のギャップのため、即興詩の構造を記録し、分析するための特定のリソースを作成する必要があります。A Boluは、こうした背景のもとで作成されました。これは、サルデーニャ語の変種であるカンターダ・ログドレーズ(cantada logudorese)に特化した、初の構造化された即興詩コーパスです。データセットは、合計141,321トークンに対して2,835のスタンザ(節)で構成されています。本研究ではコーパスのアーキテクチャを提示し、記述統計の指標と計算言語学の手法を組み合わせた多次元分析を適用して、詩的テキストの特徴を地図化します。結果は、サルデーニャ語の即興詩人の制作が、パリー(Parry)とロード(Lord)の公式性(formulaicity)に関する理論を支持する反復パターンによって特徴づけられることを示しています。この証拠は、口承の創造性を理解するための新たな鍵を提供するだけでなく、広く話されていない言語の特有性により配慮し、より包括的なNLPツールの開発に向けた重要な貢献にもなります。
ボルー(A Bolu)—サルデーニャの即興詩の計算分析のための構造化データセット
arXiv cs.CL / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、サルデーニャ語の変種であるカンターダ・ログドレーズに焦点を当てた、即興詩(その場で即興する詩)のための最初の構造化コーパス「A Bolu」を紹介する。
- データセットは2,835のスタンザを含み、合計141,321トークンで構成され、NLPによる口承の言語遺産の保存・分析における手法上のギャップを埋めることを目的としている。
- 研究ではコーパスのアーキテクチャを提示しつつ、記述統計と計算言語学的手法を組み合わせた多次元分析で詩文の特徴を明らかにする。
- 結果として、サルデーニャの即興詩人の生成には反復的なパターンが見られ、パリー&ロードの「定型性(formulaicity)」の理論と整合することが示される。
- 著者らは、この資源が口承の創造性の理解を深めるだけでなく、少数言語の特性に配慮した、より包括的なNLPツール開発にも貢献すると主張している。