要約: 文の単純化は、元の意味を維持しつつ言語的な複雑さを低減することで、複雑なテキストをより理解しやすくすることを目的としています。
しかし、この分野の進展は、高品質データの不足のため、中リソース言語および低リソース言語において依然として限定的です。
このギャップに対処するため、英語、シンハラ語、タミル語、パシュトー語、タイ語の5つの言語をカバーする文レベルの単純化の多言語データセットである OasisSimp データセットを紹介します。
そのうち、タイ語、パシュトー語、タミル語には既存の文レベルの単純化データセットはなく、シンハラ語には限定的なデータしかありません。
各言語の単純化データセットは、意味、流暢さ、および文法的正確さを維持しつつ文を単純化するため、詳細なガイドラインに従って訓練を受けたアノテータによって作成されました。
OasisSimp データセット上で、8つのオープンウェイトの多言語大規模言語モデル(LLMs)を評価し、高リソース言語と低リソース言語の間に顕著な性能格差が見られることを観察し、多言語設定における単純化の課題を浮き彫りにします。
OasisSimp データセットは、貴重な多言語リソースであると同時に挑戦的なベンチマークを提供し、現在の LLM ベースの単純化手法の限界を明らかにし、低リソース言語の文の単純化研究の将来への道を開きます。
データセットは https://OasisSimpDataset.github.io/ で利用できます。
OasisSimp: オープンソースのアジア系言語と英語の文の簡略化データセット
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- OasisSimpは、英語、シンハラ語、タミル語、パシュトー語、タイ語を対象とする多言語文の簡略化データセットを提供し、中資源言語および低資源言語におけるデータ不足に対処します。
- データセットは、意味・流暢さ・文法的正確さを維持するための詳細なガイドラインを用いて作成されており、事前に簡略化データがほとんどない言語(タイ語、パシュトー語、タミル語を含む)も対象としている。
- 8つのオープンウェイトの多言語LLMがOasisSimpで評価され、高資源言語と低資源言語の間に顕著な性能ギャップが明らかになり、多言語の簡略化における課題が浮き彫りになった。
- このデータセットは貴重な資源であると同時に挑戦的なベンチマークとして機能し、低資源言語の文の簡略化および多言語NLP分野の今後の研究を促進することを目的としている。
