要旨:台湾閩南語(Taigi)は、多様な言語的文脈へ一般化できる音声技術の方法論を前進させるための独自の機会を提示します。私たちは、Taigiの音声認識と音声合成システムを評価するための標準化ベンチマークを中心とした包括的なフレームワークであるBreeze Taigiを紹介します。私たちの主な貢献は、並行の台湾 Mandarin リソースを活用した再現性のある評価手法です。私たちは、台湾行政院の公的サービス告知から、正規化されたグラウンドトゥルース転写を備えた、30組の丹念に選定されたマンダリン-タイジ音声ペアを提供します。文字誤り率(CER)を標準指標として設定し、公正なクロスシステム比較を可能にする正規化手順を実装します。ベンチマークの有用性を示し、参照実装を提供するために、既存の台湾 Mandarin リソースと大規模な合成データ生成を活用した手法を通じて、音声認識および音声合成モデルを開発します。特に、約10,000時間のTaigi合成音声データを用いてWhisperモデルをファインチューニングします。私たちのASRモデルは、ベンチマークに対して平均CERを30.13%に達成し、既存の商用および研究システムを上回ります。標準化された評価プロトコル、多様な訓練データセット、およびオープンなベースラインモデルを提供することにより、さまざまな言語的文脈に適用可能な方法論を備えた再現可能なフレームワークを提供します。
Breeze Taigi: 台湾閩南語の音声認識と合成のベンチマークとモデル
arXiv cs.AI / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Breeze Taigi は、Taigi の音声認識と合成の標準化されたベンチマークフレームワークを導入し、30組の普通話-台湾閩南語の並列ペアを用いた再現性のあるシステム横断比較を可能にします。
- 評価を文字誤り率(CER)を中心に標準化し、公正なシステム横断比較を可能にするための正規化手順を含んでいます。
- 著者らは、約1万時間のTaigi合成データで Whisper をファインチューニングし、ベンチマークにおける平均 CER を 30.13% に達成して、既存のシステムを上回る実用性を示しています。
- 公開ベースラインモデルとリファレンス実装を提供することで、他の低リソース言語や文脈にも適用可能な再現性の高いフレームワークと方法論を提供しています。
