多言語言語モデルにおけるドメイン固有の並列データを活用した、低資源言語翻訳のための手法

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 多言語シーケンス・トゥ・シーケンス言語モデル(msLM)を用いたニューラル機械翻訳は、低資源言語で並列データ量やモデル内での言語表現が不足すると期待性能を満たしにくい。
  • 低資源かつドメイン特化のNMTでは、補助ドメインの並列データを「ファインチューニング」または「追加の事前学習(further pre-training)」に使うことで性能改善が見込める。
  • 提案手法の有効性を、ドメイン特化の低資源言語翻訳の文脈で評価し、補助データのドメイン乖離(domain divergence)が性能に与える影響も検討している。
  • 補助並列データを用いたドメイン特化NMT構築に関する複数の推奨戦略を提示している。
広告