私たちは、MOSI.AI および OpenMOSS チームによる小型の多言語音声生成モデルMOSS-TTS-Nanoをオープンソースとして公開しました。
主な特徴:
- 0.1B パラメータ
- リアルタイム音声生成
- GPU不要でCPU上で動作
- 多言語対応(中国語、英語、日本語、韓国語、アラビア語など)
- ストリーミング推論
- 長文のボイスクローン
infer.py、app.py、およびCLIコマンドによるシンプルなローカル導入
このプロジェクトは、実用的な TTS 導入を目的としています。小さなフットプリント、低遅延、デモ、軽量なサービス、プロダクトへの統合のための簡単なローカルセットアップを実現します。
GitHub:
https://github.com/OpenMOSS/MOSS-TTS-Nano
Huggingface:
https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano
オンラインデモ:
https://openmoss.github.io/MOSS-TTS-Nano-Demo/
品質、遅延、そして小型のオープンTTSモデルで試してみたいユースケースについて、ぜひご意見を伺いたいです。
[link] [comments]




