TaigiSpeech:低リソースな実環境向け音声インテント・データセットと、大規模データマイニングによる予備結果(In-the-Wild)
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低リソースで実環境に即した台湾語(台語/台湾ホッキエン/南ミン)の音声インテント・データセット「TaigiSpeech」を紹介する。これは高齢の話者21名から収集され、約3,000の発話を含む。
- 本データセットは、医療やホームアシスタントのような実用的なインテント検出ユースケースを対象とし、主として話し言葉で、かつ十分に代表されていない言語に焦点を当てている。
- 限られたラベル付きデータだけでは拡張が難しいため、著者らは、LLMによる擬似ラベリング(中間言語を用いる)を伴うキーワード一致によるデータマイニングと、最小限のテキストによる監督で行う音声・映像のマルチモーダル手法の両方を評価する。
- 本プロジェクトは、低リソースな、かつ文字として記録されていない(未書記の)話し言葉言語に対する研究や導入を広く支援するため、CC BY 4.0ライセンスでの公開が計画されている。
- 予備結果は、弱い教師信号(weak supervision)とマルチモーダルな手がかりを組み合わせたスケーラブルなデータマイニング・パイプラインが、リソースが乏しい言語に対して実用可能なインテント・データセットを構築するのに役立つことを示唆している。