Tadabur:大規模コーラン音声データセット

arXiv cs.AI / 2026/4/22

💬 オピニオンModels & Research

要点

  • この論文では、既存のコーランデータセットの「規模」と「多様性」の不足を補うことを目的に、Tadaburという大規模なコーラン音声データセットを紹介します。
  • Tadaburには、600人以上の異なる朗誦者による1,400時間超の朗誦音声が含まれ、朗誦スタイル、声質、録音条件などで大きなばらつきを捉えています。
  • このデータセットは、コーランの音声(発話)に関する研究や分析のための、より包括的かつ代表的なリソースを提供することを意図しています。
  • データセットの総時間と多様性の両方を拡充することで、今後の研究を後押しし、コーラン音声の標準化ベンチマーク作成にもつなげる狙いがあります。

要旨: クルアーン(コーラン)データの研究に対する関心が高まっているにもかかわらず、既存のクルアーン・データセットは規模と多様性の両面で依然として限られています。このギャップを埋めるために、本稿では大規模なクルアーン音声データセットであるTadaburを提示します。Tadaburは、600人を超える異なる朗誦者による1400時間以上の朗誦音声で構成されており、朗誦スタイル、声質、録音条件の点で大きなばらつきを提供します。この多様性により、Tadaburはクルアーン音声の研究および分析のための包括的で代表的なリソースとなります。利用可能なクルアーン音声データの総時間とばらつきの両方を大幅に拡張することで、Tadaburは将来の研究を支援し、標準化されたクルアーン音声ベンチマークの開発を促進することを目指します。