FLEURS-Kobani:北クルド語向けにFLEURSデータセットを拡張する

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、FLEURSベンチマークの音声拡張版である新しいFLEURS-Kobaniを紹介し、十分に資源がない言語である北クルド語(ISO 639-3: KMR)を追加することで、ASR(自動音声認識)、音声翻訳(S2TT)、および音声対音声翻訳(S2ST)の評価を可能にする。
  • FLEURS-Kobaniには、31人の母語話者によって収録された検証済み発話5,162件(総計18時間24分)が含まれており、研究利用を目的としてCC BY 4.0ライセンスのもとで公開されている。
  • 本研究では、Whisper v3-largeをASRおよびE2E S2TTに対して微調整することでベースライン結果を提示しており、(Common Voice → FLEURS-Kobani)という2段階の微調整手法により、テストセットでWER 28.11、CER 9.84を達成している。
  • KMR→ENの音声翻訳では、WhisperがテストでBLEU 8.68に到達し、さらに論文では、ピボットから導出した目的(ターゲット)や、評価設定を広げるためのカスケード型S2TT構成も報告している。
  • FLEURS-Kobaniは公開された初めての北クルド語ベンチマークとして位置付けられており、従来のFLEURSにおけるカバレッジの不足を埋め、複数の音声タスクに対する標準化されたベンチマークを支える。

Abstract

FLEURSは100+言語向けのn-way並列音声を提供していますが、北クルド語はその対象に含まれていないため、この言語における自動音声認識と言語翻訳タスクのベンチマークが制限されています。そこで我々は、FLEURSベンチマークの北クルド語(ISO 639-3 KMR)話者による拡張であるFLEURS-Kobaniを提示します。FLEURS-Kobaniデータセットは検証済みの発話5,162件からなり、合計18時間24分です。データは31人の母語話者によって収録されました。これにより、資源が乏しいクルド語の変種に対するベンチマークのカバレッジが拡張されます。ベースラインとして、ASRにはWhisper v3-largeを微調整し、E2E S2TTにもE2EのS2TTを微調整しました。二段階の微調整戦略(Common VoiceからFLEURS-Kobaniへ)により、最良のASR性能が得られました(テストでWER 28.11、CER 9.84)。E2E S2TT(KMRからEN)では、Whisperはテストで8.68 BLEUを達成します。さらに、ピボットに由来するターゲットと、カスケード型のS2TT設定についても報告します。FLEURS-Kobaniは、ASR、S2TT、S2STタスクの評価のための最初の公開された北クルド語ベンチマークを提供します。データセットは、研究利用のためにCC BY 4.0ライセンスの下で公開されています。