AI Navigate

合成音声の感情理解に関する研究

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、複数データセット、識別型および生成型のSERモデル、そして多様な合成モデルを横断して、感情理解が合成音声へ転移するかを検証した。
  • 現在のSERモデルは、合成時の音声トークン予測に起因する表現の不一致のため、合成音声には一般化できないことを示した。
  • 生成系の音声言語モデルは、パラ言語的手掛かりに頼るのではなく、テキストの意味論から感情を推定する傾向がある。
  • 結果は、既存のSERモデルが非頑健なショートカットを利用することが多く、音声言語モデル(SLMs)における頑健なパラ言語的理解の確立が依然として難しいことを示しており、音声合成におけるSERを指標として用いることの影響を示唆している。

要旨: 感情は音声対話における核となるパラ言語的特徴である。感情を理解するモデルは、感情理解の基礎表現を学習し、それが合成音声へ転移することが広く信じられており、その結果として感情理解の成果は音声合成における感情表現性を評価するための妥当な報酬または評価指標となる。本研究では、この仮定を批判的に検討するため、データセットを横断して、合成音声に対する Speech Emotion Recognition(SER)を、データセット間で、識別型および生成型 SER モデル、そして多様な合成モデルを体系的に評価します。私たちは、現在の SER モデルは合成音声へ一般化できないことが多いことを発見します。主に、合成時の音声トークン予測が、合成音声と人間の音声の間に表現の不一致を生じさせるためです。さらに、生成型の Speech Language Models(SLMs)は、パラ言語的手がかりを無視しつつ、テキストの意味論から感情を推測する傾向があります。全体として、既存の SER モデルは、基本的な特徴を捉えるのではなく、頑健でないショートカットを利用することが多いこと、そして SLM におけるパラ言語的理解は依然として困難であることを示唆します。