英語からクルド語（ソラニ）への音声翻訳：コーパス作成、評価、表記の標準化

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、TEDおよびTEDxの講演から構築された、新しい英語→中央クルド語の音声対テキスト翻訳データセット「KUTED」を導入する。91,000の文ペアと170時間分の英語音声を含む。
実験の結果、中央クルド語テキストにおける表記ゆれが翻訳品質を著しく損ない、非標準的な出力につながることが示される。
著者らは、体系的な表記標準化手法を提案しており、実用的に大きな改善と、より一貫した翻訳を実現する。
TED区分のテストセットにおいて、微調整したSeamlessモデルは15.18 BLEUを達成し、FLEURSベンチマークでSeamlessのベースラインを3.0 BLEU改善する。
本研究ではさらに、Transformerをスクラッチから学習することに加え、Seamless（ASR）とNLLB（機械翻訳）を組み合わせたカスケード型システムの評価も行う。

Abstract

我々は、TEDおよびTEDxの講演から作成した中央クルド語の音声対テキスト翻訳（S2TT）データセットKUTEDを提示する。コーパスは91,000の文ペアからなり、英語音声170時間、英語トークン165万、中央クルド語トークン140万を含む。我々はS2TTタスクにおいてKUTEDを評価し、表記のゆらぎがクルド語の翻訳性能を著しく低下させ、非標準的な出力を生じることを確認した。これに対処するため、体系的なテキスト標準化アプローチを提案し、その結果として大幅な性能向上と、より一貫した翻訳が得られることを示す。TEDの講演と分離したテストセットでは、微調整したSeamlessモデルが15.18 BLEUを達成し、FLEURSベンチマークではSeamlessのベースラインを3.0 BLEU向上させる。さらに、Transformerモデルをスクラッチから学習し、Seamless（ASR）とNLLB（MT）を組み合わせたカスケード型システムを評価する。