LLMにおける翻訳の非対称性をデータ拡張要因として:6つのロマンシュ語変種を対象にしたケーススタディ

arXiv cs.CL / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLMを用いて高リソース言語から合成学習データを生成することで行う、低リソース機械翻訳を検討し、テストケースとしてロマンシュ語に焦点を当てる。
  • 素朴な翻訳ベースのデータ拡張は、LLMがロマンシュ語の6つの異なる言語変種を混同してしまうため、ロマンシュ語では失敗し得ることが分かった。
  • 著者らは、固定の「ソース→ターゲット」方向ではなく、ソース言語とターゲット言語の間のリソース勾配に合わせて拡張方向を調整することを提案する。
  • 実験では、このリソース勾配に整合した手法が性能を改善し、最も低リソースのロマンシュ語変種において Gemini 3 Pro を23 BLEU 上回ると報告されている。
  • 人手評価では、この手法が各ロマンシュ語変種単体に対して流暢な翻訳を生成すると示され、これらの変種に対して初めて達成したモデルの成果であると主張されている。

Abstract

低リソース機械翻訳のための最近の手法は、より高リソースな言語からLLMを用いて合成データを生成することに依存しています。我々は、この手法はロマンシュでは失敗することを見出しました。なぜなら、LLMはロマンシュの6つの異なる言語変種を混同しやすいからです。我々の実験では、その代わりに、データ拡張の方向は、ソース言語とターゲット言語の間のリソース勾配に合わせるべきであることが示されました。このアプローチは、ロマンシュの最も低リソースな変種において、Gemini 3 Proを23 BLEU上回ります。人手による評価により、我々の実験は、ロマンシュの各変種において流暢な翻訳を生成する最初のモデルをもたらすことが確認されました。