MERIT:中国中心の低リソース機械翻訳に対する、多言語の専門家報酬に基づくチューニング

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クリーンな並列データの不足や、マイニングされたコーパスのノイズによって、中国語→東南アジア言語の低リソース機械翻訳の品質が限られており、高リソース方向に比べて性能が大きく劣っている問題に取り組む。
  • ALTベンチマークを5つの低リソースの東南アジア言語に適応することで、中国中心の評価スイートを構築する統一的枠組みMERITを提案する。
  • MERITは、言語固有のトークン接頭辞付与(LTP)と、教師ありファインチューニング(SFT)および、意味アラインメント報酬(SAR)に駆動されるグループ相対ポリシー最適化(GRPO)を組み合わせる。
  • 著者らは、データの的を絞ったキュレーションと、報酬に導かれた最適化が、モデルのスケーリングだけに頼るよりも、LRL↔中国語間の翻訳で大幅に優れた成果を示すと報告している。
  • 全体として、本研究は、評価設計と報酬に基づく学習戦略が、低リソースのバイリンガル翻訳品質のギャップをより効果的に埋める可能性を示唆している。