MOSS-TTSD: テキストから音声対話生成

arXiv cs.CL / 2026/3/23

📰 ニュースModels & Research

共有:

要点

本論文は、複数言語に跨る表現力豊かな対話音声を生成する音声対話合成モデル MOSS-TTSD を紹介し、長文脈のモデリングとターン間の一貫性に対応します。
最大60分までの長文を1回のパスで合成でき、最大5人の話者に対応し、短い参照クリップからのゼロショット音声クローンを含みます。
さらに、話者属性付与と類似性を測定するために、ダイアリゼーションツールに依存せず、強制アライメントに基づく客観的評価フレームワーク TTSD-eval を提案します。
本モデルは、言語を跨ぐ対話合成の客観的・主観的評価の両方において、強力なオープンソース系および独自の商用ベースラインを上回ることが示されました。
ポッドキャスト、ダイナミックな解説、エンターテインメント分野での応用により、MOSS-TTSDはリアルタイムの複数話者音声生成における大きな進歩を示します。

要約: 音声対話生成は、ポッドキャスト、動的解説、エンターテインメントコンテンツといった用途にとって重要ですが、単一発話のテキスト読み上げ（TTS）と比較して顕著な課題を伴います。主な要件には、正確なターン交代、ターン間の音響的一貫性、長時間の安定性が含まれ、これらは対話の文脈モデリングの欠如のため、現在のモデルはしばしば対処できません。このギャップを埋めるべく、複数言語にわたる表現力豊かなマルチパーティ対話音声を対象とする対話音声合成モデル MOSS-TTSD を提案します。長文コンテキストのモデリングを強化することで、MOSS-TTSD は明示的な話者タグを付けた対話スクリプトから長形式の話し言葉の会話を生成し、1回のパス合成で最大60分、最大5名の話者によるマルチパーティ対話、短い参照音声クリップからのゼロショット音声クローンをサポートします。モデルは英語や中国語をはじめとするさまざまな主流言語をサポートし、いくつかの長文シナリオに適用されています。さらに、既存の評価手法の限界に対処するため、強制アライメントに基づく客観的評価フレームワークである TTSD-eval を提案します。話者の帰属精度と話者類似性を、話者ダイアリゼーションツールに依存せずに測定します。客観的評価と主観的評価のいずれの結果も、対話合成において MOSS-TTSD が強力なオープンソースおよび独自のベースラインを凌駕することを示しています。

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

MOSS-TTSD: テキストから音声対話生成

要点

関連記事

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer