音素タイムアラインメントなしの発音の善良さ（Goodness-of-pronunciation）

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低資源言語における音声評価の課題に取り組む。ASRシステムは通常、信頼性をもって取得することが難しい音素のタイミング／アラインメントに依存している。
提案手法では、ASRの仮説を音素の混同行列ネットワーク（phoneme confusion network）へ写像することで、音素事後確率を計算する。これにより、ASRモデルがフレーム非同期であり、かつ弱教師ありである場合でも、音素に関する特徴量を利用できる。
音素レベルの時間アラインメントを要求する代わりに、話速／発話時間に関する特徴量をワード（単語）レベルで用い、クロスアテンション構造によって音素表現とフレームレベル表現を組み合わせる。
実験の結果、英語において標準的なフレーム同期の特徴抽出と同等の性能が得られ、さらに低資源のタミル語データセットでも有効な結果が示された。これにより、音声評価の多言語展開が容易になることが支持される。
本研究の目的は、弱教師あり／オープンソースの多言語ASRモデルと、下流の音声評価パイプラインとの互換性を高めることである。音素アラインメントは別途ボトルネックになりがちだが、そこを解消する。

Abstract

音声評価では、自動音声認識（ASR）モデルが入力特徴に対して時間境界と音素事後確率を計算することが多いです。しかし、ASR学習のためのデータが限られていると、音声評価を低リソース言語へ拡張することが難しくなります。オープンソースの弱教師ありモデルは多くの言語でASRを実行できますが、フレーム非同期であり、音素に基づかないため、音声評価のための特徴抽出が妨げられます。本論文では、弱教師ありモデルでの特徴抽出に関する非互換性を克服し、音声評価を低リソース言語へ容易に拡張できるようにすることを提案します。音素事後確率は、ASRの仮説を音素の混同行列ネットワークへ写像することで計算します。音素レベルの話速と持続時間ではなく、単語レベルの話速と持続時間を用います。音素とフレームレベルの特徴は、クロスアテンション構造によって組み合わせることで、音素の時間アラインメントを不要にします。これは、英語のspeechocean762および低リソースのタミル語データセットにおいて、標準的なフレーム同期特徴と同等の性能を示します。