新しいTTSモデル:VoxCPM2

Reddit r/LocalLLaMA / 2026/4/9

📰 ニュースSignals & Early TrendsModels & Research

要点

  • VoxCPM2は、新しいテキスト読み上げ(TTS)モデルであり、3つの音声生成モードをサポートしています:Voice Design、Controllable Cloning、音声の継続によるUltimate Cloning。
  • 本プロジェクトでは、Hugging Face上でのライブデモ(VoxCPM-Demo)と、VoxCPM2の公式モデルページを提供しています。
  • VoxCPM2は、主要なゼロショットおよび制御可能TTSベンチマークにおいて、最先端または競争力のある性能を報告しています。
  • ベンチマーク結果は、関連するGitHubリポジトリを通じて参照されており、Seed-TTS-eval、CV3-eval、InstructTTSEval、MiniMax Multilingual Testが含まれます。

VoxCPM2 — Three Modes of Speech Generation:

🎨 Voice Design — Create a brand-new voice

🎛️ Controllable Cloning — Clone a voice with optional style guidance

🎙️ Ultimate Cloning — Reproduce every vocal nuance through audio continuation

Demo

https://huggingface.co/spaces/openbmb/VoxCPM-Demo

Performance

VoxCPM2 achieves state-of-the-art or competitive results on major zero-shot and controllable TTS benchmarks.

See the GitHub repo for full benchmark tables (Seed-TTS-eval, CV3-eval, InstructTTSEval, MiniMax Multilingual Test).

https://huggingface.co/openbmb/VoxCPM2

submitted by /u/foldl-li
[link] [comments]