AI Navigate

Omnilingual MT: 1,600言語の機械翻訳

arXiv cs.CL / 2026/3/18

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Omnilingual Machine Translation(OMT)は、1,600言語超に対応する初のMTシステムとして報告されており、多言語カバレッジの大幅な拡大を示しています。
  • この規模は、大規模な公開多言語コーパスと新たに作成されたデータセットを組み合わせるデータ戦略によって実現されており、手作業でキュレーションされたMeDLEYビットテキストを含みます。
  • 本論文は、LLMの専門化アプローチとして、デコーダーのみのモデル(OMT-LLaMA)と、エンコーダ-デコーダアーキテクチャのモジュールとしてのアプローチ(OMT-NLLB)の2つを検討しており、1B–8Bパラメータのモデルが70BパラメータのLLM MTベースラインと同等またはそれを上回る性能を示します。
  • 英語から1,600言語への翻訳では、ベースラインはサポートが不十分な言語の解釈は可能であっても、それらを忠実に生成することはしばしば難しく、OMTは一貫した生成とクロスリンガル転送を改善します。
  • リーダーボードと評価データセット(BOUQuETとMet-BOUQuET)はOmnilingualityへと向かって進化しており、今後は無償で公開される予定です。

要旨: 高品質の機械翻訳(MT)は何百もの言語へスケールでき、マルチリンガルシステムに高い基準を設定します。しかし、世界の7,000言語と比較すると、現行のシステムはまだ限られたカバレッジしか提供していません。対象側で約200言語、ソース側ではおそらく数百言語以上がクロスリンガル転送によってサポートされている可能性があります。さらに、信頼できるベンチマークと指標の欠如のため、これらの数値さえ評価することが難しいのです。
Omnilingual Machine Translation(OMT)は、1,600言語を超える言語をサポートする初のMTシステムです。この規模は、大規模公開多言語コーパスと新規作成されたデータセットを統合する包括的なデータ戦略、手動でキュレーションされたMeDLEY並列コーパスを含むことによって実現されました。
大規模言語モデル(LLM)を機械翻訳のために専門化する二つの方法を検討します。デコーダー専用モデル(OMT-LLaMA)として、またはエンコーダ-デコーダアーキテクチャのモジュールとして(OMT-NLLB)です。特に、私たちの1B〜8Bパラメータのモデルはすべて70BのLLMベースラインのMT性能と一致するか上回ります。これは明確な専門化の利点を示しており、低計算リソース環境で強力な翻訳品質を実現します。さらに、英語から1,600言語への翻訳の評価は、ベースラインモデルが未対応の言語を解釈できるにもかかわらず、それらを意味のある忠実さをもって生成することに失敗することが多いことを示しています。OMT-LLaMAモデルは、整合性のある生成が実現可能な言語の集合を大幅に拡張します。さらに、OMTモデルはクロスリンガル転送を改善し、評価対象の1,600言語に対するMTの「理解」部分を解くことにほぼ近づいています。私たちのリーダーボードと主要な人間作成評価データセット(BOUQuETおよびMet-BOUQuET)はOmnilingualityへと動的に進化し、自由に利用可能です。