ウィキのダンプを学習コーパスへ:南スラヴ語の事例
arXiv cs.CL / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、7つの南スラヴ語に対して、Wikipedia等の生のWikimediaダンプから高品質なテキスト・コーパスを作るための2段階の手法を提案しています。
- まず、複数のWikimediaプロジェクト(Wikipediaや関連サイトなど)からテキストを抽出・クリーニングし、ウィキのマークアップを慎重に扱って「実際の記事」や利用可能な自然言語テキストを切り出します。
- 次に、怪しい/低品質な記事を、記事間のテキスト冗長性を検出するn-gramベースの方法で見つけ、そのような記事を最終コーパスから除外します。
- 得られたデータセットは、言語モデルの学習や南スラヴ語間の比較研究に利用することを目的としており、手法は主に言語に依存せず他言語にも一般化できるとしています。
- 全体として、本研究は、真正の言語使用や文化的文脈をより反映する信頼性の高い高情報量コーパス作成を重視しています。



