MOSS-TTS 技術報告書

arXiv cs.CL / 2026/3/20

📰 ニュースModels & Research

共有:

要点

MOSS-TTS は、離散音声トークン、自己回帰モデリング、および大規模な事前学習を用いたスケーラブルなレシピに基づく音声生成の基盤モデルである。
本モデルは、24 kHz の音声を可変ビットレート RVQ と統一された意味・音響表現を用いて 12.5 fps に圧縮する因果的 Transformer トークナイザーである MOSS-Audio-Tokenizer に基づいて構築されている。
本リリースには 2 つの生成モデルが含まれる。MOSS-TTS は構造の単純さ、スケーラビリティ、長文脈・制御指向のデプロイを強調し、MOSS-TTS-Local-Transformer はフレーム局所的自己回帰モジュールを追加して、より高い効率性、話者保持の強化、最初の音声生成までの時間を短縮する。
多言語・オープンドメイン設定全体で、MOSS-TTS はゼロショット音声クローン機能、トークン単位の継続時間制御、音素レベル・ピンインレベルの発音制御、滑らかなコードスイッチング、安定した長文生成をサポートする。
本報告は、設計・トレーニングレシピ・公開モデルの実証的特徴を要約している。

要旨: 本技術報告は、離散オーディオトークン、自己回帰モデリング、および大規模な事前学習といったスケーラブルなレシピに基づいて構築された音声生成の基盤モデルである MOSS-TTS を紹介します。MOSS-Audio-Tokenizer を基盤として、24 kHz の音声を可変ビットレート RVQ と統一された意味-音響表現を用いて 12.5 fps に圧縮する因果型 Transformer トークナイザーである MOSS-Audio-Tokenizer を基盤として、私たちは二つの補完的な生成モデルを公開します。MOSS-TTS は構造的な単純さ、スケーラビリティ、長文コンテキスト/制御志向のデプロイメントを強調し、MOSS-TTS-Local-Transformer はフレーム局所の自己回帰モジュールを導入してモデリング効率を高め、話者保持を強化し、最初の音声までの時間を短縮します。多言語・オープンドメインの設定全体において、MOSS-TTS はゼロショット音声クローン、トークンレベルの継続時間制御、音素レベル/ピンインレベルの発音制御、スムーズなコードスイッチング、および安定した長文生成をサポートします。本報告は、公開モデルの設計、トレーニング手順、および経験的特徴を要約します。

言語処理学会第32回年次大会(NLP2026) 参加報告

Qiita

Sakana Chatが登場しました

note

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

note

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

note

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

note

MOSS-TTS 技術報告書

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時 通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド