OmniVoice：拡散言語モデルによるオムニリンガルなゼロショット・テキスト読み上げに向けて

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

OmniVoiceは、拡散スタイルの離散非自己回帰アーキテクチャにより、600+言語をカバーする大規模な多言語・ゼロショット・テキスト読み上げ（TTS）モデルである。
2段階のテキスト→セマンティック→音響のパイプラインではなく、入力テキストから複数のコードブックの音響トークンへ直接マッピングし、複雑な設定におけるボトルネックを回避する。
フルコードブックのランダムマスキング戦略と、事前学習済みLLMからの初期化によって、モデルの学習と性能が向上し、了解性が高まる。
581k時間規模の、完全にオープンソースでキュレーションされた多言語データセットで学習されており、中国語・英語・多言語ベンチマークにおいて最先端の結果を報告している。
著者らはGitHubでコードと事前学習モデルを公開しており、研究者や開発者がこのアプローチを評価し、さらに発展させることを可能にしている。

概要: 私たちは、600以上の言語にスケールする大規模多言語ゼロショットテキスト読み上げ（TTS）モデルであるOmniVoiceを提示します。その中核には、新しいディフュージョンの言語モデル風の離散非自己回帰（NAR）アーキテクチャがあります。複雑な2段階（テキスト→セマンティック→音響）のパイプラインにおいて性能がボトルネックに陥りがちな従来の離散NARモデルとは異なり、OmniVoiceはテキストから複数のコードブックにまたがる音響トークンを直接マッピングします。この単純化されたアプローチは、2つの主要な技術的革新によって実現されています：(1) 効率的な学習のためのフルコードブック・ランダムマスキング戦略、(2) 優れた了解度を保証するための、事前学習済みLLMからの初期化です。オープンソースデータのみから完全にキュレーションされた581k時間規模の多言語データセットを活用することで、OmniVoiceはこれまでで最も広い言語カバレッジを達成し、中国語、英語、および多様な多言語ベンチマークにおいて最先端の性能を提供します。コードおよび事前学習モデルは https://github.com/k2-fsa/OmniVoice で公開されています。