デジタル化の包摂のための英語-エフィク語コーパスと機械翻訳システムの開発

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

要点

  • 本研究は、低資源言語である英語-エフィク語翻訳を対象とし、13,865 対の文ペアという小規模な並行コーパスを用いる。
  • 多言語 MT モデルである mT5 と NLLB-200 の微調整を比較し、NLLB-200 は BLEU スコアが英語→エフィク語で 26.64、エフィク語→英語で 31.21、chrF スコアがそれぞれ 51.04 と 47.92 を達成した。
  • これらの結果は、低資源言語向けの実用的な MT ツールの実現可能性を示すとともに、包摂的なデータ実践と文化的背景に基づく評価を強調している。
  • この研究はデジタル化の包摂を強調し、NLP研究における過小表現されがちな言語のより広い表現へ道を拓く。)

要約:低資源言語は人類の歴史の貴重な宝庫として機能し、文化的および知的多様性を保護します。その重要性にもかかわらず、それらは現代の自然言語処理システムにはほとんど含まれていません。スワヒリ語、ヨルバ語、アムハラ語など、広く話されているアフリカの言語には進展がみられる一方で、Efik のようなより小規模な先住民族言語は機械翻訳研究において依然として過小に扱われています。本研究は、13,865文ペアからなる小規模でコミュニティが編纂・選定した平行コーパスを活用し、英語−Efik翻訳における最先端の多言語ニューラル機械翻訳モデルの有効性を評価します。私たちはこのデータセット上で mT5 多言語モデルと NLLB200 モデルのファインチューニングを行いました。NLLB-200 は mT5 を上回り、英語−Efik の BLEU スコアが 26.64、Efik−英語が 31.21、対応する chrF スコアがそれぞれ 51.04 と 47.92 となり、流暢さと意味的忠実性の向上を示しています。本研究の知見は、低リソース言語向けの実用的な機械翻訳ツールの開発が実現可能であることを示すとともに、包摂的なデータ実践と文化的背景に根ざした評価の重要性を、平等なNLPを推進する上で強調します。