説明可能な音声感情認識:加重属性の公平性で社会的バイアスへの人口統計的寄与をモデル化する

arXiv cs.CL / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、メンタルヘルスや教育などのセンシティブな領域で用いられる音声感情認識(SER)システムの公平性リスクを扱います。
  • 著者らは、一般的な公平性指標(例:Equalised Odds、Demographic Parity)が、人口統計属性と予測の「共同依存」を見落としがちだと指摘しています。
  • 人口統計属性とモデル誤りの間の「共同関係」を学習して、配分(allocative)バイアスを明示的にモデル化する加重属性フェアネス手法を提案します。
  • 合成データで検証した後、CREMA-Dデータセットで微調整したHuBERTおよびWavLMに適用します。
  • 提案手法は保護属性とバイアスの相互情報量をより捉え、属性ごとのバイアス寄与を定量化できること、さらにHuBERTとWavLMの双方にジェンダーバイアスの兆候があることを示します。

Abstract

スピーチ感情認識(SER)システムは、メンタルヘルスや教育などのセンシティブな領域での応用が拡大しており、偏った予測は害を引き起こし得ます。Equalised OddsやDemographic Parityといった従来の公平性指標は、人口統計属性とモデル予測の間の共同依存を見落としがちです。我々は、人口統計属性とモデル誤差の間の共同関係を学習することで、割当(allocative)バイアスを明示的に捉えるSERのための公平性モデリング手法を提案します。まず合成データ上で公平性指標を検証し、その後CREMA-Dデータセットで微調整(finetuned)したHuBERTおよびWavLMモデルの評価に適用します。結果は、提案する公平性モデルが保護属性とバイアスの間のより多くの相互情報量を捉えること、さらにSSLベースのSERモデルにおいて、個々の属性がバイアスに与える絶対的寄与を定量化できることを示しています。加えて、我々の分析は、HuBERTおよびWavLMの両方において性別バイアスの兆候が見られることを明らかにします。