英語からクルド語(ソラニ)への音声翻訳:コーパス作成、評価、表記の標準化
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、TEDおよびTEDxの講演から構築された、新しい英語→中央クルド語の音声対テキスト翻訳データセット「KUTED」を導入する。91,000の文ペアと170時間分の英語音声を含む。
- 実験の結果、中央クルド語テキストにおける表記ゆれが翻訳品質を著しく損ない、非標準的な出力につながることが示される。
- 著者らは、体系的な表記標準化手法を提案しており、実用的に大きな改善と、より一貫した翻訳を実現する。
- TED区分のテストセットにおいて、微調整したSeamlessモデルは15.18 BLEUを達成し、FLEURSベンチマークでSeamlessのベースラインを3.0 BLEU改善する。
- 本研究ではさらに、Transformerをスクラッチから学習することに加え、Seamless(ASR)とNLLB(機械翻訳)を組み合わせたカスケード型システムの評価も行う。




