広告

LongCat-AudioDiT:波形潜在空間における高忠実度の拡散テキスト読み上げ

Reddit r/LocalLLaMA / 2026/3/31

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Meituan LongCatが、Waveformの潜在空間で高忠実度な拡散ベースのText-to-Speechを行うモデル「LongCat-AudioDiT」を公開したと紹介されています。
  • 公開先としてHugging Face(LongCat-AudioDiT-3.5B)とGitHub(LongCat-AudioDiT)が案内されています。
  • Waveform潜在空間で動作する拡散TTSというアプローチにより、音声生成の品質(高忠実度)を狙う点が主眼です。
  • リリース情報は告知リンク(X)経由で共有され、コミュニティ内でも注目トピックとして扱われています。

広告
LongCat-AudioDiT:波形潜在空間における高忠実度の拡散テキスト読み上げ | AI Navigate