OpenBMBがVoxCPM2をついにリリースしました。VoxCPM-0.5Bの後継版です。規模と機能の両面で大きな飛躍です。
OpenBMBはVoxCPM2をリリースしました。VoxCPM1.5から大幅に進化しています。
VoxCPM1.5 → VoxCPM2:
| VoxCPM1.5 | VoxCPM2 |
|---|---|
| Params | 0.5B |
| Audio quality | 44.1kHz |
| Languages | 中国語 + 英語 |
| Training data | 180万時間 |
| RTF (RTX 4090) | 0.17 |
| Voice Design | ❌ |
VoxCPM2で新しくなった点:
- Voice Design — テキストによる説明だけから、参照音声なしで新しい声を生成
- Controllable Cloning — クローンして、感情・速度・表現を制御
- Ultimate Cloning — 参照音声 + 字幕(トランスクリプト)で最大限の忠実度
- 約8GB VRAM、ストリーミング対応
HuggingFace: https://huggingface.co/openbmb/VoxCPM2
もう誰かVoxCPM2を試しましたか?
- Qwen3-TTSとの比較 — 自然さと多言語対応の範囲は?
- Open-MOSSとの比較 — レイテンシと音声品質は?
- OmniVoice(k2-fsa)— VoxCPM2の30に対して646言語をカバー、RTFは0.025 vs 0.30ですが、24kHz vs 48kHz。速度と多言語対応のための品質面のトレードオフとして妥当ですか?
- Voice Design(参照音声なし)は本当に使えるレベルですか?
- 英語以外の結果はどうですか?
音声の比較があればぜひ見てみたいです。
[リンク] [コメント]




