Tadabur：大規模コーラン音声データセット

arXiv cs.AI / 2026/4/22

💬 オピニオンModels & Research

共有:

要点

この論文では、既存のコーランデータセットの「規模」と「多様性」の不足を補うことを目的に、Tadaburという大規模なコーラン音声データセットを紹介します。
Tadaburには、600人以上の異なる朗誦者による1,400時間超の朗誦音声が含まれ、朗誦スタイル、声質、録音条件などで大きなばらつきを捉えています。
このデータセットは、コーランの音声（発話）に関する研究や分析のための、より包括的かつ代表的なリソースを提供することを意図しています。
データセットの総時間と多様性の両方を拡充することで、今後の研究を後押しし、コーラン音声の標準化ベンチマーク作成にもつなげる狙いがあります。

要旨: クルアーン（コーラン）データの研究に対する関心が高まっているにもかかわらず、既存のクルアーン・データセットは規模と多様性の両面で依然として限られています。このギャップを埋めるために、本稿では大規模なクルアーン音声データセットであるTadaburを提示します。Tadaburは、600人を超える異なる朗誦者による1400時間以上の朗誦音声で構成されており、朗誦スタイル、声質、録音条件の点で大きなばらつきを提供します。この多様性により、Tadaburはクルアーン音声の研究および分析のための包括的で代表的なリソースとなります。利用可能なクルアーン音声データの総時間とばらつきの両方を大幅に拡張することで、Tadaburは将来の研究を支援し、標準化されたクルアーン音声ベンチマークの開発を促進することを目指します。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

Dev.to

Tadabur：大規模コーラン音声データセット

要点

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer