Breeze Taigi: 台湾閩南語の音声認識と合成のベンチマークとモデル

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Breeze Taigi は、Taigi の音声認識と合成の標準化されたベンチマークフレームワークを導入し、30組の普通話-台湾閩南語の並列ペアを用いた再現性のあるシステム横断比較を可能にします。
評価を文字誤り率（CER）を中心に標準化し、公正なシステム横断比較を可能にするための正規化手順を含んでいます。
著者らは、約1万時間のTaigi合成データで Whisper をファインチューニングし、ベンチマークにおける平均 CER を 30.13% に達成して、既存のシステムを上回る実用性を示しています。
公開ベースラインモデルとリファレンス実装を提供することで、他の低リソース言語や文脈にも適用可能な再現性の高いフレームワークと方法論を提供しています。

要旨：台湾閩南語（Taigi）は、多様な言語的文脈へ一般化できる音声技術の方法論を前進させるための独自の機会を提示します。私たちは、Taigiの音声認識と音声合成システムを評価するための標準化ベンチマークを中心とした包括的なフレームワークであるBreeze Taigiを紹介します。私たちの主な貢献は、並行の台湾 Mandarin リソースを活用した再現性のある評価手法です。私たちは、台湾行政院の公的サービス告知から、正規化されたグラウンドトゥルース転写を備えた、30組の丹念に選定されたマンダリン-タイジ音声ペアを提供します。文字誤り率（CER）を標準指標として設定し、公正なクロスシステム比較を可能にする正規化手順を実装します。ベンチマークの有用性を示し、参照実装を提供するために、既存の台湾 Mandarin リソースと大規模な合成データ生成を活用した手法を通じて、音声認識および音声合成モデルを開発します。特に、約10,000時間のTaigi合成音声データを用いてWhisperモデルをファインチューニングします。私たちのASRモデルは、ベンチマークに対して平均CERを30.13%に達成し、既存の商用および研究システムを上回ります。標準化された評価プロトコル、多様な訓練データセット、およびオープンなベースラインモデルを提供することにより、さまざまな言語的文脈に適用可能な方法論を備えた再現可能なフレームワークを提供します。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

Breeze Taigi: 台湾閩南語の音声認識と合成のベンチマークとモデル

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ