VoxCPM2が登場 - 2Bパラメータ、30言語。VoxCPM1.5からの大幅なアップグレード。

Reddit r/LocalLLaMA / 2026/4/10

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

OpenBMBはVoxCPM2をリリースし、VoxCPM1.5に対する大幅なアップグレードとして位置づけている。規模が大きくなり、能力も拡張された。
VoxCPM2はパラメータを2Bに増やし、1.8M時間で学習し、中国語と英語に対応する。音声出力は44.1kHzで、リアルタイム性能も改善されている（RTX 4090での報告RTFは0.17）。
リリースでは、新しい音声生成機能として、テキストのみから可能なVoice Design、感情/ペース/表現の制御によるControllable Cloning、参照音声に加えて台本（トランスクリプト）を用いてより高精細な結果を得るUltimate Cloningが追加された。
VoxCPM2はHugging Face経由で提供されており、約8GB VRAMで動作しストリーミングに対応すると説明されている。これにより導入に必要な要件が引き下げられる。
コミュニティではすでに、他のTTSシステム（例：Qwen3-TTS、Open-MOSS、OmniVoice）と比較しており、多言語対応範囲、レイテンシ/RTF、音声の忠実度、そしてテキストのみの音声デザインがどれだけうまく機能するかに注目している。

OpenBMBがVoxCPM2をついにリリースしました。VoxCPM-0.5Bの後継版です。規模と機能の両面で大きな飛躍です。

OpenBMBはVoxCPM2をリリースしました。VoxCPM1.5から大幅に進化しています。

VoxCPM1.5 → VoxCPM2:

VoxCPM2で新しくなった点:

もう誰かVoxCPM2を試しましたか？

Qwen3-TTSとの比較 — 自然さと多言語対応の範囲は？
Open-MOSSとの比較 — レイテンシと音声品質は？
OmniVoice（k2-fsa）— VoxCPM2の30に対して646言語をカバー、RTFは0.025 vs 0.30ですが、24kHz vs 48kHz。速度と多言語対応のための品質面のトレードオフとして妥当ですか？
Voice Design（参照音声なし）は本当に使えるレベルですか？
英語以外の結果はどうですか？

音声の比較があればぜひ見てみたいです。