「誤った共鳴」:音声生成評価における感情埋め込み類似度の批判的検討

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、音声生成における感情的表現力のための客観指標、特に参照音声と生成音声の間で感情埋め込みのコサイン類似度を用いる評価手法を検証します。
  • emotion2vecのようなモデルから得られる埋め込みは、言語内容や話者アイデンティティによって容易に混乱し、「感情の類似度」スコアが感情以外の要因を反映してしまうと主張しています。
  • 制御された敵対的評価と人間の評価整合性テストにより、潜在空間が分類では高精度でも、類似度によるゼロショット評価では機能しない可能性が示されます。
  • 著者らは、この指標が「本物の感情合成」よりも「音響的な模倣」に敏感であるため、人間の感情知覚と一致しないと結論づけています。

Abstract

感情的な表出力に対する客観的指標は、音声生成、特に感情的なプロソディ(韻律)を転送する必要がある表現合成やボイス変換において不可欠である。この目的を定量化するために、この分野では広く、参照サンプルと生成サンプル間の感情類似度が用いられている。これは、言語や話者の違いがあっても情動の手がかりを捉えていると仮定し、emotion2vec のようなエンコーダから得られる埋め込みのコサイン類似度を計算する。私たちは、制御された敵対的タスクと人手による整合性テストを通じて、この仮定に異議を唱える。分類精度は高いにもかかわらず、これらの潜在空間はゼロショットの類似度評価には不向きである。表現上の制約により、言語情報や話者情報の干渉が感情特徴を上回り、識別能力が低下する。その結果、この指標は人間の知覚と整合しない。この音響的な脆弱性は、真の感情合成よりも音響の模倣を報酬としてしまうことを示している。