[D] ライセンス付きのインド言語音声データセットの提供（明示的な協力者の同意あり）

Reddit r/MachineLearning / 2026/4/5

📰 ニュースSignals & Early TrendsTools & Practical Usage

共有:

要点

小規模なデータ・イニシアチブであるDataCatalystは、協力者から直接入手し、その録音の利用について明示的な同意を提供している複数のインド言語をカバーする、ライセンス付きの音声データセットを提供しています。
データセットは、想定される利用ケースに応じて、独占または非独占のライセンス条件のいずれでも提供できます。
この取り組みはデータを倫理的に収集されたものとして位置づけ、ASR、TTS、その他の音声AIアプリケーションを構築または研究するチームを支援することを目指しています。
関心のある関係者は、データセットおよび収集プロセスの詳細について創設者に連絡するよう招待されています。

みなさんこんにちは、

私は小規模なデータ・イニシアチブを運営しており、複数のインド言語の音声データセットを、録音を利用し、ライセンスすることについて提供者が明示的に同意したうえで、貢献者から直接収集しています。

利用ケースに応じて、独占的または非独占的な権利のいずれかでデータセットを提供できます。目的は、ASR、TTS、音声AI、または関連する研究に取り組むチームが、倫理的に調達された音声データを利用できるようにすることです。

もしここで音声モデルを扱っていて、インド言語の音声データを探している方がいれば、ぜひご連絡ください。データセットの詳細や収集プロセスについて、もっと共有することもできます。

— Divyam
DataCatalyst 創業者
datacatalyst.in

AI Business

AI Business

日経XTECH

日経XTECH

GIGAZINE