MOSS-TTS-Nano: 4コアCPUで動作し、リアルタイム音声生成に対応する0.1B規模のオープンソース多言語TTSモデル

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • MOSI.AIおよびOpenMOSSチームは、実運用を目的に設計された、0.1Bパラメータの小型多言語TTSモデル「MOSS-TTS-Nano」をオープンソース化しました。
  • このモデルは、リアルタイムかつストリーミングでの音声生成に対応しており、GPUを必要とせず4コアCPU上で動作するよう構築されています。
  • 中国語、英語、日本語、韓国語、アラビア語を含む多言語対応に加え、長文向けのボイス・クローニング機能も備えています。
  • 本プロジェクトでは、スクリプト/CLI(infer.py、app.py、コマンドラインツール)によるシンプルなローカル導入に加え、オンラインデモおよびHugging FaceのSpaceを用意しており、素早いテストが可能です。

私たちは、MOSI.AI および OpenMOSS チームによる小型の多言語音声生成モデルMOSS-TTS-Nanoをオープンソースとして公開しました。

主な特徴:

  • 0.1B パラメータ
  • リアルタイム音声生成
  • GPU不要でCPU上で動作
  • 多言語対応(中国語、英語、日本語、韓国語、アラビア語など)
  • ストリーミング推論
  • 長文のボイスクローン
  • infer.pyapp.py、およびCLIコマンドによるシンプルなローカル導入

このプロジェクトは、実用的な TTS 導入を目的としています。小さなフットプリント、低遅延、デモ、軽量なサービス、プロダクトへの統合のための簡単なローカルセットアップを実現します。

GitHub:
https://github.com/OpenMOSS/MOSS-TTS-Nano

Huggingface:

https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano

オンラインデモ:
https://openmoss.github.io/MOSS-TTS-Nano-Demo/

品質、遅延、そして小型のオープンTTSモデルで試してみたいユースケースについて、ぜひご意見を伺いたいです。

投稿者 /u/TimeEnvironmental219
[link] [comments]