自己教師あり音声表現における音韻サブスペース解析による、学習不要な多言語構音障害重症度評価

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本研究は、凍結したHuBERTの自己教師あり音声表現内で「健常対照から推定した音韻特徴サブスペースの劣化」を計測することで、学習不要（training-free）に多言語の構音障害（dysarthria）重症度を定量化する手法を提案している。
ラベル付き病的データや教師あり重症度モデルを訓練せず、Montreal Forced Alignerにより話者ごとの音素レベル埋め込みを抽出し、d-primeを複数の音韻コントラスト（例：nasality、voicing、stridency等）と母音特徴で算出して12次元の音韻プロファイルを構成する。
10コーパス・5言語・3疾患（計890話者）で、主要な子音d-prime特徴が臨床的重症度と有意に相関し、メタ解析でも一貫性が示され、FDR補正やleave-one-corpus-out、アラインメント品質の制御条件でも頑健性が確認されている。
さらに全12特徴が健常群と重度dysarthria群を統計的に識別可能で、話者の重症度段階に対するnasality指標の単調低下も多くのコーパスで観測される。
最小限の前提（MFAの音響モデルが当該言語に存在すること）で適用でき、実行パイプラインと6言語分の電話特徴設定を公開するとしている。

AI Business

AI Business

Publickey

日経XTECH

日経XTECH