広告

L-ReLF:語彙データセット作成のためのフレームワーク

arXiv cs.CL / 2026/4/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、未支援(十分にサービスが行き届いていない)言語向けに、標準化された用語に基づく高品質で構造化された語彙データセットを作成するための、再現可能なフレームワークL-ReLFを紹介する。
  • 低リソース言語における主要な課題に焦点を当て、情報源の特定、OCRの適用(Modern Standard Arabicに対するバイアスに言及)、および誤り訂正とデータ・モデルの標準化のための厳密な後処理の手順を詳述することで、それらに対処する。
  • 出力されるデータセットは、Wikidata Lexemesと完全に互換となるよう設計されており、協調型の知識プラットフォームにおける語彙データの一貫した統合を可能にする。
  • 手法は一般化可能であると提示されており、他の言語コミュニティも同一のパイプラインを用いて、機械翻訳や形態素解析といった下流のNLPタスクのための基盤データセットを生成できるようにする。

Abstract

This paper introduces the L-ReLF (Low-Resource Lexical Framework), a novel, reproducible methodology for creating high-quality, structured lexical datasets for underserved languages. The lack of standardized terminology, exemplified by Moroccan Darija, poses a critical barrier to knowledge equity in platforms like Wikipedia, often forcing editors to rely on inconsistent, ad-hoc methods to create new words in their language. Our research details the technical pipeline developed to overcome these challenges. We systematically address the difficulties of working with low-resource data, including source identification, utilizing Optical Character Recognition (OCR) despite its bias towards Modern Standard Arabic, and rigorous post-processing to correct errors and standardize the data model. The resulting structured dataset is fully compatible with Wikidata Lexemes, serving as a vital technical resource. The L-ReLF methodology is designed for generalizability, offering other language communities a clear path to build foundational lexical data for downstream NLP applications, such as Machine Translation and morphological analysis.

広告