音素タイムアラインメントなしの発音の善良さ(Goodness-of-pronunciation)
arXiv cs.LG / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低資源言語における音声評価の課題に取り組む。ASRシステムは通常、信頼性をもって取得することが難しい音素のタイミング/アラインメントに依存している。
- 提案手法では、ASRの仮説を音素の混同行列ネットワーク(phoneme confusion network)へ写像することで、音素事後確率を計算する。これにより、ASRモデルがフレーム非同期であり、かつ弱教師ありである場合でも、音素に関する特徴量を利用できる。
- 音素レベルの時間アラインメントを要求する代わりに、話速/発話時間に関する特徴量をワード(単語)レベルで用い、クロスアテンション構造によって音素表現とフレームレベル表現を組み合わせる。
- 実験の結果、英語において標準的なフレーム同期の特徴抽出と同等の性能が得られ、さらに低資源のタミル語データセットでも有効な結果が示された。これにより、音声評価の多言語展開が容易になることが支持される。
- 本研究の目的は、弱教師あり/オープンソースの多言語ASRモデルと、下流の音声評価パイプラインとの互換性を高めることである。音素アラインメントは別途ボトルネックになりがちだが、そこを解消する。



