TaigiSpeech:低リソースな実環境向け音声インテント・データセットと、大規模データマイニングによる予備結果(In-the-Wild)

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、低リソースで実環境に即した台湾語(台語/台湾ホッキエン/南ミン)の音声インテント・データセット「TaigiSpeech」を紹介する。これは高齢の話者21名から収集され、約3,000の発話を含む。
  • 本データセットは、医療やホームアシスタントのような実用的なインテント検出ユースケースを対象とし、主として話し言葉で、かつ十分に代表されていない言語に焦点を当てている。
  • 限られたラベル付きデータだけでは拡張が難しいため、著者らは、LLMによる擬似ラベリング(中間言語を用いる)を伴うキーワード一致によるデータマイニングと、最小限のテキストによる監督で行う音声・映像のマルチモーダル手法の両方を評価する。
  • 本プロジェクトは、低リソースな、かつ文字として記録されていない(未書記の)話し言葉言語に対する研究や導入を広く支援するため、CC BY 4.0ライセンスでの公開が計画されている。
  • 予備結果は、弱い教師信号(weak supervision)とマルチモーダルな手がかりを組み合わせたスケーラブルなデータマイニング・パイプラインが、リソースが乏しい言語に対して実用可能なインテント・データセットを構築するのに役立つことを示唆している。

Abstract

音声技術は急速に進歩し、世界中の多様な人々に役立っています。しかし、多くの言語は限られた資源のため、十分に代表されていないままです。本論文では、主に話される低資源言語である台湾タギ(別名:台湾ホッキエン/福建南方語)における、実世界の音声意図データセットである\textbf{TaigiSpeech}を紹介します。このデータセットは高齢者から収集されており、合計21話者、3k(約3,000)の発話で構成されています。医療やホームアシスタントのような実用的な意図検出シナリオを目的としています。ラベル付きデータの不足に対処するため、2つの監督レベルを伴う2つのデータマイニング戦略を検討します。具体的には、中間言語を介したLLMによる疑似ラベル付けを用いる「キーワード一致データマイニング」と、最小限のテキストによる監督でマルチモーダルな手がかりを活用する「音声・映像(audio-visual)フレームワーク」です。この設計により、低資源で、かつ文字として書かれていない話し言葉のためのデータセット構築をスケール可能にします。TaigiSpeechは、低資源で未文字化の言語に関する幅広い採用と研究を促進するため、CC BY 4.0ライセンスのもとで公開されます。プロジェクトのウェブサイトとデータセットは https://kwchang.org/taigispeech にあります。