MOSS-TTSD: テキストから音声対話生成

arXiv cs.CL / 2026/3/23

📰 ニュースModels & Research

要点

  • 本論文は、複数言語に跨る表現力豊かな対話音声を生成する音声対話合成モデル MOSS-TTSD を紹介し、長文脈のモデリングとターン間の一貫性に対応します。
  • 最大60分までの長文を1回のパスで合成でき、最大5人の話者に対応し、短い参照クリップからのゼロショット音声クローンを含みます。
  • さらに、話者属性付与と類似性を測定するために、ダイアリゼーションツールに依存せず、強制アライメントに基づく客観的評価フレームワーク TTSD-eval を提案します。
  • 本モデルは、言語を跨ぐ対話合成の客観的・主観的評価の両方において、強力なオープンソース系および独自の商用ベースラインを上回ることが示されました。
  • ポッドキャスト、ダイナミックな解説、エンターテインメント分野での応用により、MOSS-TTSDはリアルタイムの複数話者音声生成における大きな進歩を示します。

要約: 音声対話生成は、ポッドキャスト、動的解説、エンターテインメントコンテンツといった用途にとって重要ですが、単一発話のテキスト読み上げ(TTS)と比較して顕著な課題を伴います。主な要件には、正確なターン交代、ターン間の音響的一貫性、長時間の安定性が含まれ、これらは対話の文脈モデリングの欠如のため、現在のモデルはしばしば対処できません。このギャップを埋めるべく、複数言語にわたる表現力豊かなマルチパーティ対話音声を対象とする対話音声合成モデル MOSS-TTSD を提案します。長文コンテキストのモデリングを強化することで、MOSS-TTSD は明示的な話者タグを付けた対話スクリプトから長形式の話し言葉の会話を生成し、1回のパス合成で最大60分、最大5名の話者によるマルチパーティ対話、短い参照音声クリップからのゼロショット音声クローンをサポートします。モデルは英語や中国語をはじめとするさまざまな主流言語をサポートし、いくつかの長文シナリオに適用されています。さらに、既存の評価手法の限界に対処するため、強制アライメントに基づく客観的評価フレームワークである TTSD-eval を提案します。話者の帰属精度と話者類似性を、話者ダイアリゼーションツールに依存せずに測定します。客観的評価と主観的評価のいずれの結果も、対話合成において MOSS-TTSD が強力なオープンソースおよび独自のベースラインを凌駕することを示しています。

MOSS-TTSD: テキストから音声対話生成 | AI Navigate