要旨: 大規模言語モデル(LLM)は一般的な機械翻訳において強い性能を示している一方で、文化を意識した状況における能力は十分に解明されていません。このギャップを埋めるために、本研究ではCanMTを提案します。CanMTは、機械翻訳のための文化に配慮した新規性駆動型の並列データセットであり、加えて文化的な翻訳品質を評価するための、理論的に裏付けられた多次元の評価フレームワークも併せて提供します。CanMTを活用し、さまざまな翻訳戦略の制約の下で、多岐にわたるLLMおよび翻訳システムを体系的に評価します。その結果、モデル間には大きな性能差があること、また翻訳戦略がモデルの挙動に対して体系的な影響を及ぼすことが示されます。さらに分析すると、翻訳の難しさは文化固有の項目の種類によって異なり、文化固有の知識の認識と、それを翻訳出力として正しく運用する能力との間には、継続的なギャップが残ることが分かります。加えて、参照訳を組み込むことで、LLM-as-a-judgeにおける評価の信頼性が大幅に向上することが示され、文化に配慮した翻訳品質の評価において参照訳が不可欠な役割を担うことが強調されます。コーパスとコードはCanMTで公開されています。
大規模言語モデルにおけるカルチャー対応機械翻訳:ベンチマークと調査
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、カルチャーに特有な翻訳シナリオにおけるLLMの対応力が十分に理解されていないという課題を埋めるため、カルチャー対応の小説駆動並列データセット「CanMT」を提案します。
- 理論的根拠に基づく多面的な評価フレームワークを導入し、戦略制約の異なる条件下で多様なLLMおよび翻訳システムを体系的に評価します。
- 実験の結果、モデル間で大きな性能差があり、翻訳戦略がモデルのふるまいに体系的な影響を与えることが示されます。
- さらに、カルチャー固有の項目の種類によって翻訳の難しさが変わり、モデルが文化的知識を認識していても、それを翻訳出力で正しく運用できないギャップが残ることが明らかになります。
- また、LLMを「ジャッジ」として評価に用いる場合、参照訳文を取り入れることで評価の信頼性が大きく向上し、カルチャー対応翻訳の品質評価における参照訳文の重要性が示されます。

