音声優先のネーションにおける嗜好:インド諸言語のTTSに対する大規模な一対比較評価と嗜好分析

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 多言語TTSの嗜好評価において、クラウドソーシングを用いた一対比較で生じやすいばらつきを抑えるための、制御された多次元評価フレームワークを提案している。
  • 10のインド諸言語にまたがる5,000語以上のネイティブおよびコードミックス文を用い、7つの最先端TTSシステムを、1,900人超のネイティブ評価者による12万件超の一対比較で評価している。
  • 評価者は総合的な好みだけでなく、明瞭性、表現力、音声品質、活気、ノイズ、幻覚の6つの知覚次元で判断を行う。
  • Bradley–Terryモデリングにより多言語リーダーボードを構築し、SHAP分析と信頼性評価によって、人間の好みとモデルの特性(強み・トレードオフ)を結び付けて解釈している。
  • 言語の多様性と多属性の知覚を同時に扱うことで、より解釈可能で信頼性の高いTTS評価を実現できる点を示している。

概要: クラウドソーシングによるペアワイズ評価は、基盤モデルを評価するための拡張可能なアプローチとして登場してきました。しかし、それをテキスト読み上げ(TTS)に適用すると、言語的多様性とスピーチ知覚の多次元性に起因して分散が大きくなります。本研究では、多言語TTS向けの制御された多次元ペアワイズ評価フレームワークを提案します。このフレームワークは、言語的制御と知覚に根ざした注釈を組み合わせます。10のインド系言語にまたがり、ネイティブおよびコードミックスの文を5K+件用いて、最先端のTTSシステム7つを評価し、1900人超のネイティブ評価者から120K超のペアワイズ比較を収集しました。全体の好みに加えて、評価者は6つの知覚次元(了解度、表現力、音声品質、活気、ノイズ、および幻覚)にわたって判断を行います。Bradley-Terryモデリングを用いて、多言語のリーダーボードを構築し、SHAP分析によって人間の嗜好を解釈するとともに、知覚次元ごとのモデルの強みとトレードオフを併せて、リーダーボードの信頼性を分析します。