デジタル化の包摂のための英語-エフィク語コーパスと機械翻訳システムの開発

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

共有:

要点

本研究は、低資源言語である英語-エフィク語翻訳を対象とし、13,865 対の文ペアという小規模な並行コーパスを用いる。
多言語 MT モデルである mT5 と NLLB-200 の微調整を比較し、NLLB-200 は BLEU スコアが英語→エフィク語で 26.64、エフィク語→英語で 31.21、chrF スコアがそれぞれ 51.04 と 47.92 を達成した。
これらの結果は、低資源言語向けの実用的な MT ツールの実現可能性を示すとともに、包摂的なデータ実践と文化的背景に基づく評価を強調している。
この研究はデジタル化の包摂を強調し、NLP研究における過小表現されがちな言語のより広い表現へ道を拓く。）

要約：低資源言語は人類の歴史の貴重な宝庫として機能し、文化的および知的多様性を保護します。その重要性にもかかわらず、それらは現代の自然言語処理システムにはほとんど含まれていません。スワヒリ語、ヨルバ語、アムハラ語など、広く話されているアフリカの言語には進展がみられる一方で、Efik のようなより小規模な先住民族言語は機械翻訳研究において依然として過小に扱われています。本研究は、13,865文ペアからなる小規模でコミュニティが編纂・選定した平行コーパスを活用し、英語−Efik翻訳における最先端の多言語ニューラル機械翻訳モデルの有効性を評価します。私たちはこのデータセット上で mT5 多言語モデルと NLLB200 モデルのファインチューニングを行いました。NLLB-200 は mT5 を上回り、英語−Efik の BLEU スコアが 26.64、Efik−英語が 31.21、対応する chrF スコアがそれぞれ 51.04 と 47.92 となり、流暢さと意味的忠実性の向上を示しています。本研究の知見は、低リソース言語向けの実用的な機械翻訳ツールの開発が実現可能であることを示すとともに、包摂的なデータ実践と文化的背景に根ざした評価の重要性を、平等なNLPを推進する上で強調します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

デジタル化の包摂のための英語-エフィク語コーパスと機械翻訳システムの開発

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer