音声優先のネーションにおける嗜好：インド諸言語のTTSに対する大規模な一対比較評価と嗜好分析

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

多言語TTSの嗜好評価において、クラウドソーシングを用いた一対比較で生じやすいばらつきを抑えるための、制御された多次元評価フレームワークを提案している。
10のインド諸言語にまたがる5,000語以上のネイティブおよびコードミックス文を用い、7つの最先端TTSシステムを、1,900人超のネイティブ評価者による12万件超の一対比較で評価している。
評価者は総合的な好みだけでなく、明瞭性、表現力、音声品質、活気、ノイズ、幻覚の6つの知覚次元で判断を行う。
Bradley–Terryモデリングにより多言語リーダーボードを構築し、SHAP分析と信頼性評価によって、人間の好みとモデルの特性（強み・トレードオフ）を結び付けて解釈している。
言語の多様性と多属性の知覚を同時に扱うことで、より解釈可能で信頼性の高いTTS評価を実現できる点を示している。

概要: クラウドソーシングによるペアワイズ評価は、基盤モデルを評価するための拡張可能なアプローチとして登場してきました。しかし、それをテキスト読み上げ（TTS）に適用すると、言語的多様性とスピーチ知覚の多次元性に起因して分散が大きくなります。本研究では、多言語TTS向けの制御された多次元ペアワイズ評価フレームワークを提案します。このフレームワークは、言語的制御と知覚に根ざした注釈を組み合わせます。10のインド系言語にまたがり、ネイティブおよびコードミックスの文を5K+件用いて、最先端のTTSシステム7つを評価し、1900人超のネイティブ評価者から120K超のペアワイズ比較を収集しました。全体の好みに加えて、評価者は6つの知覚次元（了解度、表現力、音声品質、活気、ノイズ、および幻覚）にわたって判断を行います。Bradley-Terryモデリングを用いて、多言語のリーダーボードを構築し、SHAP分析によって人間の嗜好を解釈するとともに、知覚次元ごとのモデルの強みとトレードオフを併せて、リーダーボードの信頼性を分析します。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

音声優先のネーションにおける嗜好：インド諸言語のTTSに対する大規模な一対比較評価と嗜好分析

要点

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer