Selective Augmentation:G2Pブートストラップによるユニバーサル自動音声転写の改善
arXiv cs.CL / 2026/5/1
📰 ニュースModels & Research
要点
- 本論文は、良質で多様な教師データが不足しがちなユニバーサル自動音声転写(APT)に対し、「Selective Augmentation」というブートストラップ手法を提案する。
- MultIPAベースの設定で、補助言語(ヒンディー語)からターゲット言語(ドイツ語)へ音韻的な差異を“選択的に”転送し、既存の学習データを拡張する。
- この手法は誤検出(false positives)を減らすことで破裂音の有声性精度を改善し、17.6%の向上が報告されている。
- さらに、新たな能力として破裂音の無気音(aspiration)認識を可能にし、ベースラインでは0%だったドイツ語 /p, t, k/ の無気音転写を61.2%まで引き上げる。
- 評価の難しさに対処するため客観的な指標も開発しており、無声(tenuis)クラスを32.2%削減して、ターゲット言語の破裂音同士の混同を減らすことにもつながる。




