LLMにおける翻訳の非対称性をデータ拡張要因として:6つのロマンシュ語変種を対象にしたケーススタディ
arXiv cs.CL / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLMを用いて高リソース言語から合成学習データを生成することで行う、低リソース機械翻訳を検討し、テストケースとしてロマンシュ語に焦点を当てる。
- 素朴な翻訳ベースのデータ拡張は、LLMがロマンシュ語の6つの異なる言語変種を混同してしまうため、ロマンシュ語では失敗し得ることが分かった。
- 著者らは、固定の「ソース→ターゲット」方向ではなく、ソース言語とターゲット言語の間のリソース勾配に合わせて拡張方向を調整することを提案する。
- 実験では、このリソース勾配に整合した手法が性能を改善し、最も低リソースのロマンシュ語変種において Gemini 3 Pro を23 BLEU 上回ると報告されている。
- 人手評価では、この手法が各ロマンシュ語変種単体に対して流暢な翻訳を生成すると示され、これらの変種に対して初めて達成したモデルの成果であると主張されている。



