自己教師あり音声認識モデルの音素レベル埋め込みにおける人口統計学的な不公平を特定し類型化する

arXiv cs.CL / 2026/4/27

📰 ニュースModels & Research

共有:

要点

本論文は、より公平なASRの進展には、特にスピーカーグループ（SG）間でエンコーダの音素埋め込みがどのように異なるかを含め、音素レベルの誤りをより詳細に特徴づける必要があると主張しています。
音素埋め込みの誤りを「ランダム／高分散の埋め込み誤り」と「体系的／埋め込みバイアス」の2種類に分ける枠組みを提案しています。
著者らは、単一（しばしば不利な）SGに対して音素分類プローブを学習するとそのSGの性能が改善することを示し、音素埋め込みにSGレベルのバイアスが存在することを示唆しています。
また、音素予測精度の悪化が音素分散の高さと対応することを見出し、ランダム誤りが不公平における重要な要因である可能性を示しています。
最後に、ドメイン強化と敵対的学習を用いた公平性向上目的のファインチューニングは、ランダムな埋め込み誤りを減らさず、プローブ学習の効果にも変化を与えないと報告しています。