自己教師あり音声表現における音韻サブスペース解析による、学習不要な多言語構音障害重症度評価

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、凍結したHuBERTの自己教師あり音声表現内で「健常対照から推定した音韻特徴サブスペースの劣化」を計測することで、学習不要(training-free)に多言語の構音障害(dysarthria)重症度を定量化する手法を提案している。
  • ラベル付き病的データや教師あり重症度モデルを訓練せず、Montreal Forced Alignerにより話者ごとの音素レベル埋め込みを抽出し、d-primeを複数の音韻コントラスト(例:nasality、voicing、stridency等)と母音特徴で算出して12次元の音韻プロファイルを構成する。
  • 10コーパス・5言語・3疾患(計890話者)で、主要な子音d-prime特徴が臨床的重症度と有意に相関し、メタ解析でも一貫性が示され、FDR補正やleave-one-corpus-out、アラインメント品質の制御条件でも頑健性が確認されている。
  • さらに全12特徴が健常群と重度dysarthria群を統計的に識別可能で、話者の重症度段階に対するnasality指標の単調低下も多くのコーパスで観測される。
  • 最小限の前提(MFAの音響モデルが当該言語に存在すること)で適用でき、実行パイプラインと6言語分の電話特徴設定を公開するとしている。