AI Navigate

表形式機械学習と感情認識のためのクロスリンガル音響特徴データベース

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースTools & Practical UsageModels & Research

要点

  • バグのせいで廃止された元データを置換する新しい7言語のデータセットが公開され、コミュニティが自由に利用できるようになりました。
  • 対象言語には韓国語、ヒンディー語、ヘブライ語、マンクス語、ツェルトル語、マギンダナオ語(SPS2)、ラシ語(Sindhi変種)が含まれ、語型的多様性と独特な韻律特性が選定理由です。
  • データセットは自発的で多様な録音条件を重視し、高いメタデータカバレッジを備え、人口統計に基づく分析と感情認識の韻律ベースラインの堅牢性を支えることを目的としています。
  • リリースは提供されたリンクの HuggingFace 上でホストされており、著者はコミュニティのフィードバックを歓迎しています。

公開データセットについて、1週間ほど前に投稿したことをお伝えします。元のデータはバグのため廃止せざるを得ませんでした。その代わりに7言語の置換版が公開され、コミュニティが自由に触れることができます。フィードバックをいただければ幸いです。

https://huggingface.co/datasets/vadette/macro_prosody_sample_set

このパックは、語族的に異なる言語ファミリーと音声タイプを跨ぐように選択されました:

韓国語は語末焦点を示す特徴と複雑なモーラタイミングを持つ孤立語で、ストレス・タイムのインド・アーリア語系言語との有用な対照となります。

ヒンディー語はここで最大のコーパスであり、インド・アーリア韻律のベースラインに対して強力な統計的力を提供します。

ヘブライ語はVSO型のセム語で、語根と語形パターンの形態論を持ちます。高いメタデータのカバレッジは、人口統計的に層別化した分析に有用です。

マンクス語はケルト系復興言語で、母語話者コミュニティが非常に小さいです。98%のPRISTINEレートは、動機づけられたコミュニティ貢献者による録音条件が厳密に管理されていることを反映しています。

ツェルトル語はマヤ語族で、エルガーティブ-アブソルーティブな配列と独特の音調レジスター体系を特徴とします。音響データセットにはほとんど含まれていません。

マギンダナオ語(SPS2)はフィリピンのオーストロネシア語族の自発話です。T2重分布はSPS2コーパスの自然発生的な録音条件を反映しています。

ラシ語(SPS2)はバロチスタンで話されるシンド語の一変種です。中央値クリップ長は短く(3.4秒対CV24語の5–6秒)、自発的なスピーチ形式を反映しています。

投稿者 /u/Wooden_Leek_7258
[リンク] [コメント]