新しいTTSモデル：VoxCPM2

Reddit r/LocalLLaMA / 2026/4/9

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

VoxCPM2は、新しいテキスト読み上げ（TTS）モデルであり、3つの音声生成モードをサポートしています：Voice Design、Controllable Cloning、音声の継続によるUltimate Cloning。
本プロジェクトでは、Hugging Face上でのライブデモ（VoxCPM-Demo）と、VoxCPM2の公式モデルページを提供しています。
VoxCPM2は、主要なゼロショットおよび制御可能TTSベンチマークにおいて、最先端または競争力のある性能を報告しています。
ベンチマーク結果は、関連するGitHubリポジトリを通じて参照されており、Seed-TTS-eval、CV3-eval、InstructTTSEval、MiniMax Multilingual Testが含まれます。

VoxCPM2 — Three Modes of Speech Generation:

🎨 Voice Design — Create a brand-new voice

🎛️ Controllable Cloning — Clone a voice with optional style guidance

🎙️ Ultimate Cloning — Reproduce every vocal nuance through audio continuation

Demo

https://huggingface.co/spaces/openbmb/VoxCPM-Demo

Performance

VoxCPM2 achieves state-of-the-art or competitive results on major zero-shot and controllable TTS benchmarks.

See the GitHub repo for full benchmark tables (Seed-TTS-eval, CV3-eval, InstructTTSEval, MiniMax Multilingual Test).

https://huggingface.co/openbmb/VoxCPM2

submitted by /u/foldl-li
[link] [comments]

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

新しいTTSモデル：VoxCPM2

要点

Demo

Performance

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Demo

Performance

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」