Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation

arXiv cs.CL / 3/27/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 多言語シーケンス・トゥ・シーケンス言語モデル(msLM)を用いたニューラル機械翻訳は、低資源言語で並列データ量やモデル内での言語表現が不足すると期待性能を満たしにくい。
  • 低資源かつドメイン特化のNMTでは、補助ドメインの並列データを「ファインチューニング」または「追加の事前学習(further pre-training)」に使うことで性能改善が見込める。
  • 提案手法の有効性を、ドメイン特化の低資源言語翻訳の文脈で評価し、補助データのドメイン乖離(domain divergence)が性能に与える影響も検討している。
  • 補助並列データを用いたドメイン特化NMT構築に関する複数の推奨戦略を提示している。

Abstract

Neural Machine Translation (NMT) systems built on multilingual sequence-to-sequence Language Models (msLMs) fail to deliver expected results when the amount of parallel data for a language, as well as the language's representation in the model are limited. This restricts the capabilities of domain-specific NMT systems for low-resource languages (LRLs). As a solution, parallel data from auxiliary domains can be used either to fine-tune or to further pre-train the msLM. We present an evaluation of the effectiveness of these two techniques in the context of domain-specific LRL-NMT. We also explore the impact of domain divergence on NMT model performance. We recommend several strategies for utilizing auxiliary parallel data in building domain-specific NMT models for LRLs.

Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation | AI Navigate