要旨: 生成的な音声モデリングは、これまで主に専門化されたタスクへと分断されてきました。すなわち、テキストから音声(TTS)、テキストから音楽(TTM)、テキストから音声(TTA)です。しかし、各タスクは不均一な制御パラダイムのもとで動作しています。構造化された意味表現(音声/音楽)と、非構造化された音響テクスチャ(効果音)との間に本質的な不一致があるため、これらのモダリティを統一することは依然として根本的な課題です。本論文では、UniSonate を提案します。これは、参照を必要としない自然言語による標準化された指示インターフェースを通じて、音声、音楽、効果音を合成できる統一フローマッチング(flow-matching)フレームワークです。構造の相違を調停するために、本研究では、非構造化の環境音を構造化された時間的潜在空間へ射影する、新しい動的トークン注入メカニズムを提案します。これにより、音素駆動のマルチモーダル拡散トランスフォーマ(MM-DiT)内で正確な継続時間制御が可能になります。さらに、複数段階のカリキュラム学習戦略と組み合わせることで、この手法はモダリティ間の最適化競合を効果的に緩和します。大規模な実験により、UniSonate は指示ベースの TTS(WER 1.47%)および TTM(SongEval Coherence 3.18)において最先端の性能を達成しつつ、TTA においても競争力のある忠実度を維持することが示されます。重要な点として、ポジティブトランスファーが観測されます。すなわち、多様な音声データに対する共同学習は、単一タスクのベースラインと比べて、構造的な一貫性および韻律表現力を大幅に向上させます。音声サンプルは https://qiangchunyu.github.io/UniSonate/ で利用可能です。
UniSonate:テキスト指示で音声・音楽・効果音を生成する統一モデル
arXiv cs.AI / 2026/4/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- UniSonateは、参照情報不要の標準化された自然言語による指示インターフェースを用いて、音声・音楽・効果音を統一的に生成できる新しい生成オーディオモデルである。
- 論文では、非構造の環境音を構造化された時間方向の潜在空間へ写像する動的トークン注入メカニズムを提案し、フォノーム駆動のMultimodal Diffusion Transformer(MM-DiT)内で正確な長さ(duration)制御を可能にしている。
- モダリティ間の最適化競合に対処するため、UniSonateはマルチステージのカリキュラム学習戦略を用いてクロスモーダル学習の安定化を図っている。
- 実験では、指示ベースTTSでWER 1.47%、テキストから音楽のコヒーレンスでSongEval Coherence 3.18を報告し、効果音生成でも競争力のある忠実度を示しているほか、共同学習によるポジティブ・トランスファーも観測されている。
- 音声サンプルはオンラインで公開されており、本研究はarXivのプレプリント(arXiv:2604.22209v1)として発表されている。



