テキスト音声合成(TTS)の評価に向けたニューラルネットワーク
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、人手によるTTS評価(MOS/SBS)が高コストで、また評価者バイアスが生じるという課題に取り組むため、相対指標と絶対指標の両方について専門家の判断を近似するニューラルモデルを学習する。
- 相対評価では、HuBERTを基盤としたアプローチであるNeuralSBSを提案し、SOMOSデータセットで73.7%の精度を達成する。
- 絶対評価では、MOSNetを改良し、シーケンス長のバッチングを導入する。さらに、Whisper音声特徴とBERTテキスト埋め込みを組み合わせるマルチモーダル・スタッキングアンサンブルとしてWhisperBertを導入する。
- 最良のMOSモデルは約0.40 RMSEを達成し、人手の評価者間RMSEベースライン0.62を上回る。アブレーションにより、クロスアテンションの融合が性能を損なう可能性が示される。
- 著者らは、SpeechLMベースのアーキテクチャや、ゼロショットのLLM評価器(Qwen2-Audio、Gemini 2.5 flash preview)について負の結果を報告し、信頼できるTTSスコアリングのためには専用のメトリック学習フレームワークが必要だと主張している。




