GhanaNLP並行コーパス: 低リソースのガーナ諸語のための包括的な多言語リソース

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical Usage

共有:

要点

GhanaNLPイニシアティブは、英語とTwi語、Fante語、Ewe語、Ga語、Kusaal語との対訳文ペアを41,513組、開発・編成し、低リソースのガーナ諸語のNLPを支援します。
データは専門家によって収集・翻訳・注釈付けされ、標準メタデータで充実させられ、一貫性と実用性を確保しています。
これらのコーパスは機械翻訳、音声技術、言語保全のために設計され、Khaya AI翻訳エンジンのような実世界のアプリケーションに展開されています。
本研究は、アフリカの言語に対して包摂的でアクセス可能な言語技術を実現することにより、AIの民主化に寄与します。

要約: リソースの乏しい言語は、デジタル化され、よく構造化された言語データの限られた入手可能性により、自然言語処理に固有の課題を呈します。これらのギャップに対処するため、GhanaNLP イニシアティブは、Twi、Fante、Ewe、Ga、Kusaal 言語用の41,513対の対訳文ペアを作成・整理しました。これらの言語はガーナ全土で広く話されていますが、デジタル空間ではまだ過小評価されたままです。各データセットは、現地語と英語との間で慎重に整列された文のペアで構成されています。データは人間の専門家によって収集、翻訳、注釈が行われ、標準的な構造メタデータで一貫性と有用性を確保するよう強化されました。これらのコーパスは、機械翻訳、音声技術、言語保存を含む研究、教育、および商業的アプリケーションを支援するよう設計されています。本論文は、データセット作成の方法論、構造、意図された使用ケース、および評価を記録するとともに、Khaya AI翻訳エンジンのような実世界アプリケーションへの展開についても述べています。全体として、この研究は、アフリカの言語の包摂的でアクセス可能な言語技術を可能にすることにより、AIを民主化する取り組みの拡大に寄与します。