PSP:インド系言語向けテキスト読み上げにおける解釈可能な次元別アクセント評価ベンチマーク
arXiv cs.CL / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、従来の明瞭性(WER/CER)や総合的な自然さ(MOS/UTMOS)だけでは測れないインド系言語のアクセント品質を、解釈可能な形で次元別に評価する新しいベンチマークPSP(Phoneme Substitution Profile)を提案しています。
- PSPはアクセントを「retroflex collapse rate(RR)」「aspiration fidelity(AF)」「vowel-length fidelity(LF)」「Tamil-zha fidelity(ZF)」「Frechet Audio Distance(FAD)」「prosodic signature divergence(PSD)」の6つの次元に分解し、強制アライメントとネイティブ話者セントロイドのプローブ、さらにコーパス分布距離を組み合わせて測定します。
- v1では、ElevenLabs v3、Cartesia、Sarvam Bulbul、Indic Parler-TTS、Praxy Voiceの計5システムを、ヒンディー語・テルグ語・タミル語のパイロットセットでベンチマークし、テルグ語については追加のケーススタディ(R5→R6)も扱います。
- 結果として、アクセントの難易度はヒンディー語<テルグ語<タミル語の順で単調に増加し、PSPによる順位付けはWERベースの順位と必ずしも一致しないこと、さらに6次元すべてで同時に最適(Pareto-optimal)な単一システムは存在しないことが示されます。
- 著者らは、参照セントロイド、埋め込み、韻律特徴行列、ゴールデンセット、MITライセンスのスコアリングコードなどを公開し、アクセントに焦点を当てた再現可能な評価を促しています(MOS相関の正式結果はv2に延期)。



