[リンク] [コメント]
LongCat-AudioDiT:波形潜在空間における高忠実度の拡散テキスト読み上げ
Reddit r/LocalLLaMA / 2026/3/31
📰 ニュースSignals & Early TrendsModels & Research
要点
- Meituan LongCatが、Waveformの潜在空間で高忠実度な拡散ベースのText-to-Speechを行うモデル「LongCat-AudioDiT」を公開したと紹介されています。
- 公開先としてHugging Face(LongCat-AudioDiT-3.5B)とGitHub(LongCat-AudioDiT)が案内されています。
- Waveform潜在空間で動作する拡散TTSというアプローチにより、音声生成の品質(高忠実度)を狙う点が主眼です。
- リリース情報は告知リンク(X)経由で共有され、コミュニティ内でも注目トピックとして扱われています。




