MOSS-TTS 技術報告書

arXiv cs.CL / 2026/3/20

📰 ニュースModels & Research

要点

  • MOSS-TTS は、離散音声トークン、自己回帰モデリング、および大規模な事前学習を用いたスケーラブルなレシピに基づく音声生成の基盤モデルである。
  • 本モデルは、24 kHz の音声を可変ビットレート RVQ と統一された意味・音響表現を用いて 12.5 fps に圧縮する因果的 Transformer トークナイザーである MOSS-Audio-Tokenizer に基づいて構築されている。
  • 本リリースには 2 つの生成モデルが含まれる。MOSS-TTS は構造の単純さ、スケーラビリティ、長文脈・制御指向のデプロイを強調し、MOSS-TTS-Local-Transformer はフレーム局所的自己回帰モジュールを追加して、より高い効率性、話者保持の強化、最初の音声生成までの時間を短縮する。
  • 多言語・オープンドメイン設定全体で、MOSS-TTS はゼロショット音声クローン機能、トークン単位の継続時間制御、音素レベル・ピンインレベルの発音制御、滑らかなコードスイッチング、安定した長文生成をサポートする。
  • 本報告は、設計・トレーニングレシピ・公開モデルの実証的特徴を要約している。

要旨: 本技術報告は、離散オーディオトークン、自己回帰モデリング、および大規模な事前学習といったスケーラブルなレシピに基づいて構築された音声生成の基盤モデルである MOSS-TTS を紹介します。MOSS-Audio-Tokenizer を基盤として、24 kHz の音声を可変ビットレート RVQ と統一された意味-音響表現を用いて 12.5 fps に圧縮する因果型 Transformer トークナイザーである MOSS-Audio-Tokenizer を基盤として、私たちは二つの補完的な生成モデルを公開します。MOSS-TTS は構造的な単純さ、スケーラビリティ、長文コンテキスト/制御志向のデプロイメントを強調し、MOSS-TTS-Local-Transformer はフレーム局所の自己回帰モジュールを導入してモデリング効率を高め、話者保持を強化し、最初の音声までの時間を短縮します。多言語・オープンドメインの設定全体において、MOSS-TTS はゼロショット音声クローン、トークンレベルの継続時間制御、音素レベル/ピンインレベルの発音制御、スムーズなコードスイッチング、および安定した長文生成をサポートします。本報告は、公開モデルの設計、トレーニング手順、および経験的特徴を要約します。