LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space

Reddit r/LocalLLaMA / 3/31/2026

📰 NewsSignals & Early TrendsModels & Research

Key Points

  • Meituan LongCatが、Waveformの潜在空間で高忠実度な拡散ベースText-to-Speechを行うモデル「LongCat-AudioDiT」を公開したと紹介されています。
  • 公開先としてHugging Face(LongCat-AudioDiT-3.5B)とGitHub(LongCat-AudioDiT)が案内されています。
  • Waveform潜在空間で動作する拡散TTSというアプローチにより、音声生成の品質(高忠実度)を狙う点が主眼です。
  • リリース情報は告知リンク(X)経由で共有され、コミュニティ内でも注目トピックとして扱われています。