テキスト音声合成(TTS)の評価に向けたニューラルネットワーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人手によるTTS評価(MOS/SBS)が高コストで、また評価者バイアスが生じるという課題に取り組むため、相対指標と絶対指標の両方について専門家の判断を近似するニューラルモデルを学習する。
  • 相対評価では、HuBERTを基盤としたアプローチであるNeuralSBSを提案し、SOMOSデータセットで73.7%の精度を達成する。
  • 絶対評価では、MOSNetを改良し、シーケンス長のバッチングを導入する。さらに、Whisper音声特徴とBERTテキスト埋め込みを組み合わせるマルチモーダル・スタッキングアンサンブルとしてWhisperBertを導入する。
  • 最良のMOSモデルは約0.40 RMSEを達成し、人手の評価者間RMSEベースライン0.62を上回る。アブレーションにより、クロスアテンションの融合が性能を損なう可能性が示される。
  • 著者らは、SpeechLMベースのアーキテクチャや、ゼロショットのLLM評価器(Qwen2-Audio、Gemini 2.5 flash preview)について負の結果を報告し、信頼できるTTSスコアリングのためには専用のメトリック学習フレームワークが必要だと主張している。

Abstract

大規模において、音声合成(TTS)システムが人間に知覚される品質を確実に提供することは、現代の音声技術における中核的な課題である。平均意見スコア(Mean Opinion Score: MOS)やサイド・バイ・サイド(Side-by-Side: SBS)比較といった人間の主観評価プロトコルは、事実上のゴールドスタンダードとして残っているが、高価で遅く、また評価者のバイアスに強く影響される。本研究では、相対評価(SBS)と絶対評価(MOS)の両設定において専門家の判断を近似することを目的とした、複数の新しいニューラルモデルを定式化し実装することで、これらの障壁に取り組む。相対評価では、SOMOSデータセット上で73.7%の精度を達成するHuBERTベースのモデルNeuralSBSを提案する。絶対評価では、カスタムの系列長バッチングを用いたMOSNetへの改良に加え、弱学習器(weak learners)を介してWhisperの音声特徴とBERTのテキスト埋め込みを組み合わせるマルチモーダル・スタッキングアンサンブルであるWhisperBertを導入する。最良のMOSモデルは、二乗平均平方根誤差(Root Mean Square Error: RMSE)~0.40を達成し、人間の評価者間RMSEのベースラインである0.62を有意に上回る。さらに、アブレーション研究により、テキストをクロスアテンションで単純に融合すると性能が低下しうることが明らかになり、直接的な潜在融合よりもアンサンブルに基づくスタッキングの有効性が示される。加えて、SpeechLMベースのアーキテクチャおよびゼロショットのLLM評価者(Qwen2-Audio、Gemini 2.5 flash preview)では負の結果が得られたことも報告し、専用のメトリック学習フレームワークの必要性を裏付ける。