PSP:インド系言語向けテキスト読み上げにおける解釈可能な次元別アクセント評価ベンチマーク

arXiv cs.CL / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、従来の明瞭性(WER/CER)や総合的な自然さ(MOS/UTMOS)だけでは測れないインド系言語のアクセント品質を、解釈可能な形で次元別に評価する新しいベンチマークPSP(Phoneme Substitution Profile)を提案しています。
  • PSPはアクセントを「retroflex collapse rate(RR)」「aspiration fidelity(AF)」「vowel-length fidelity(LF)」「Tamil-zha fidelity(ZF)」「Frechet Audio Distance(FAD)」「prosodic signature divergence(PSD)」の6つの次元に分解し、強制アライメントとネイティブ話者セントロイドのプローブ、さらにコーパス分布距離を組み合わせて測定します。
  • v1では、ElevenLabs v3、Cartesia、Sarvam Bulbul、Indic Parler-TTS、Praxy Voiceの計5システムを、ヒンディー語・テルグ語・タミル語のパイロットセットでベンチマークし、テルグ語については追加のケーススタディ(R5→R6)も扱います。
  • 結果として、アクセントの難易度はヒンディー語<テルグ語<タミル語の順で単調に増加し、PSPによる順位付けはWERベースの順位と必ずしも一致しないこと、さらに6次元すべてで同時に最適(Pareto-optimal)な単一システムは存在しないことが示されます。
  • 著者らは、参照セントロイド、埋め込み、韻律特徴行列、ゴールデンセット、MITライセンスのスコアリングコードなどを公開し、アクセントに焦点を当てた再現可能な評価を促しています(MOS相関の正式結果はv2に延期)。

Abstract

標準的なテキスト音声合成(TTS)の評価は、明瞭性(WER, CER)と全体的な自然さ(MOS, UTMOS)を測りますが、アクセントを定量化しません。合成器は4つすべてで良いスコアを出しても、目標言語で弁別的(フォノミック)な特徴において非母語話者らしい音に聞こえることがあります。インド系言語では、このような特徴には、歯茎後部(レトロフレックス)の調音、破擦音化(アスピレーション)、母音長、そしてタミル語のレトロフレックス近似音(文字 zha)などが含まれます。本研究では、インド系TTS向けの、解釈可能な「音素ごとの次元」に基づくアクセント・ベンチマークであるPSP(Phoneme Substitution Profile)を提案します。PSPは、アクセントを相補的な6つの次元に分解します:レトロフレックス・コラプス率(RR)、アスピレーションの忠実度(AF)、母音長の忠実度(LF)、タミル語-zhaの忠実度(ZF)、フレシェ・オーディオ・ディスタンス(FAD)、および韻律的シグネチャの乖離(PSD)。最初の4つは、強制アラインメントに加えて、Wav2Vec2-XLS-Rレイヤ9の埋め込み上でネイティブ話者のセントロイドによる音響プローブを用いて測定します。後者2つは、コーパス・レベルの分布距離で測定します。本v1では、4つの商用およびオープンソースのシステム(ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul、Indic Parler-TTS)を、ヒンディー語、テルグ語、タミル語のパイロットセットでベンチマークします。さらに5番目のシステム(Praxy Voice)を3言語すべてに含め、加えてテルグ語に対するR5→R6のケーススタディも行います。結果は3点です:(i)レトロフレックス・コラプスは、音韻的難しさに応じて単調に増加します(ヒンディー語 < テルグ語 < タミル語、約1%、約40%、約68%);(ii)PSPの並び順はWERの並び順と乖離します――商用のWERリーダーが、レトロフレックスや韻律的忠実度で一様に先行するわけではありません;(iii)6つすべての次元にわたってパレート最適となる単一のシステムはありません。言語ごとにネイティブ参照セントロイド(各言語500クリップ)、FAD用の1000クリップ埋め込み、PSD用の500クリップの韻律特徴行列、言語ごとの300発話のゴールデンセット、MITのもとでのスコアリングコード、ならびにCC-BYのもとでのセントロイドを公開します。形式的なMOS相関はv2に延期します;v1では、5つの内部整合性シグナルと、ネイティブ音声による健全性チェックを報告します。