TTS-PRISM：細かな診断のための知覚推論と解釈可能な音声モデル

arXiv cs.CL / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文では、単一の評価指標だけでは細かな音響アーティファクトの診断や知覚崩壊の説明が難しいという課題に対し、北京語（マンダリン）向けの知覚推論と解釈可能性を重視したTTSフレームワーク「TTS-PRISM」を提案します。
安定性から高度な表現力までをカバーする12次元の診断スキーマを定義し、敵対的摂動と専門家アンカーを用いたターゲット合成パイプラインにより高品質な診断データセットを構築します。
スキーマ駆動の命令チューニングにより、スコアリング基準と推論を効率的なエンドツーエンドモデルへ明示的に埋め込みます。
1,600サンプルのGold Test Setで、TTS-PRISMが汎用モデルよりも人間との整合性で優れていることを示し、さらに6つのTTSパラダイムのプロファイリングにより直感的な診断フラグが得られます。
本プロジェクトはオープンソースとして公開されており、コードとチェックポイントは指定のGitHubリポジトリから入手できます。

要旨: 生成的なテキスト読み上げ（TTS）モデルは人間レベルの品質に近づいている一方で、単一の集約指標では微細な音響アーティファクトを診断できず、また知覚の崩壊（perceptual collapse）を説明することもできません。そこで本研究では、マンダリン向けの多次元診断フレームワークであるTTS-PRISMを提案します。まず、安定性から高度な表現力に至る12次元のスキーマを確立します。次に、敵対的摂動（adversarial perturbations）と専門家によるアンカー（expert anchors）を用いた、ターゲット化された合成パイプラインを設計し、高品質な診断用データセットを構築します。第三に、スキーマに基づく指示追従チューニングにより、明示的な採点基準と推論を、効率的なエンドツーエンドモデルに埋め込みます。1,600サンプルからなるゴールド・テスト・セットでの実験により、TTS-PRISMは人間との整合性において一般的な汎用モデルを上回ることが示されます。さらに6つのTTSパラダイムをプロファイリングすることで、微細な能力差を明らかにする直感的な診断フラグが確立されます。TTS-PRISMはオープンソースであり、コードとチェックポイントは https://github.com/xiaomi-research/tts-prism にあります。