FLEURS-Kobani:北クルド語向けにFLEURSデータセットを拡張する
arXiv cs.CL / 2026/4/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、FLEURSベンチマークの音声拡張版である新しいFLEURS-Kobaniを紹介し、十分に資源がない言語である北クルド語(ISO 639-3: KMR)を追加することで、ASR(自動音声認識)、音声翻訳(S2TT)、および音声対音声翻訳(S2ST)の評価を可能にする。
- FLEURS-Kobaniには、31人の母語話者によって収録された検証済み発話5,162件(総計18時間24分)が含まれており、研究利用を目的としてCC BY 4.0ライセンスのもとで公開されている。
- 本研究では、Whisper v3-largeをASRおよびE2E S2TTに対して微調整することでベースライン結果を提示しており、(Common Voice → FLEURS-Kobani)という2段階の微調整手法により、テストセットでWER 28.11、CER 9.84を達成している。
- KMR→ENの音声翻訳では、WhisperがテストでBLEU 8.68に到達し、さらに論文では、ピボットから導出した目的(ターゲット)や、評価設定を広げるためのカスケード型S2TT構成も報告している。
- FLEURS-Kobaniは公開された初めての北クルド語ベンチマークとして位置付けられており、従来のFLEURSにおけるカバレッジの不足を埋め、複数の音声タスクに対する標準化されたベンチマークを支える。




