「誤った共鳴」:音声生成評価における感情埋め込み類似度の批判的検討
arXiv cs.CL / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、音声生成における感情的表現力のための客観指標、特に参照音声と生成音声の間で感情埋め込みのコサイン類似度を用いる評価手法を検証します。
- emotion2vecのようなモデルから得られる埋め込みは、言語内容や話者アイデンティティによって容易に混乱し、「感情の類似度」スコアが感情以外の要因を反映してしまうと主張しています。
- 制御された敵対的評価と人間の評価整合性テストにより、潜在空間が分類では高精度でも、類似度によるゼロショット評価では機能しない可能性が示されます。
- 著者らは、この指標が「本物の感情合成」よりも「音響的な模倣」に敏感であるため、人間の感情知覚と一致しないと結論づけています。