NiuTrans.LMT：LLMによる包摂的かつスケーラブルな多言語機械翻訳に向けて

arXiv cs.CL / 2026/4/27

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本論文は、多言語の教師あり微調整（SFT）において、ピボット言語（例：英語）を中心にデータを対称的に再利用すると、逆方向（X→ピボット）の翻訳品質が大きく低下し得る失敗モードを特定している。
この「Directional Degeneration」を、多対一の写像が過剰でショートカット学習を促すことに起因すると説明し、それを抑える手法としてStrategic Downsampling（SD）を提案している。
Parallel Multilingual Prompting（PMP）では、翻訳指示に補助となる並列文を追加して学習時の言語横断的な転移を促し、補助訳が利用可能な場合はテスト時の強化（optional test-time enhancement）にも対応している。
著者らは、モデルサイズ4段階（0.6B/1.7B/4B/8B）で60言語・234方向をカバーする中国語—英語中心の多言語翻訳モデル群NiuTrans.LMTを開発・公開しており、評価ではオープンソースのMMTシステムの中で競争力が高く、4Bモデルがより大規模なベースラインと同等以上の性能を示すとしている。
本研究は、モデル提供とプロジェクト資源の公開を通じて、包摂的かつスケーラブルな多言語機械翻訳を実現することを目指している。

概要: 大規模言語モデルは多言語機械翻訳（MMT）を大きく前進させてきましたが、多くの言語へ拡張しつつ、方向（入出力言語の組）ごとに品質を堅牢に保つことは依然として難しい課題です。本論文では、多方向（multi-way）並列データに対する多言語教師あり微調整（SFT）の失敗モードを特定します。そのようなデータが、ある基準言語（たとえば英語）を中心として対称的に再利用される場合、逆方向（X $o$ 基準言語）の性能が大きく低下し得ます。私たちはこの現象を「方向劣化（Directional Degeneration）」と名付け、これを過度な多対一（many-to-one）写像に起因するとし、その結果として近道学習（shortcut learning）を促すのだと考えます。私たちは、この劣化を軽減するための単純でありながら効果的な手法として「戦略的ダウンサンプリング（Strategic Downsampling, SD）」を提案します。さらに、訓練中に言語横断転移を促進するために、翻訳指示に補助的な並列文を追加する「並列多言語プロンプト（Parallel Multilingual Prompting, PMP）」を導入します。また、補助翻訳が利用可能な場合には、推論時の任意の強化も可能にします。加えて、
\textbf{NiuTrans.LMT}（\textbf{L}arge-scale \textbf{M}ultilingual \textbf{T}ranslationの略で、
\textbf{LMT}と表記）を開発します。これは中国・英語中心の多言語翻訳モデル群で、4つのサイズ（0.6B/1.7B/4B/8B）にまたがり、60言語と234方向をカバーします。包括的な評価により、LMTはオープンソースのMMTシステムの中で競争力があること、そして私たちの4B LMTモデルは、実質的により大きいベースラインと同等、あるいはそれ以上の性能を示すことを明らかにします。私たちは、包摂的でスケーラブルなMMTを支援するため、モデルとプロジェクト資源を公開します。