Qwen3 TTSは過小評価されている—ローカルでリアルタイム実行できて、試した中でも表現力が高いオープンTTSモデルだった

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 開発者が、口パク同期の“リアルタイムアバター”(VTuber風)向けにローカルで完結するASR→LLM→TTSパイプラインを見直し、Qwen3 TTSが以前の構成より大きく進歩していると感じた。
  • Qwen3 TTSは、デコーダがスライディングウィンドウを使うためストリーミング時にも安定しており、LLM応答をストリーミングしながらも韻律・ピッチ・イントネーションの一貫性を保てると報告している。
  • llama.cpp上で動かすために量子化を行い、C#のワークフローでもローカルでリアルタイム性能を出せるようにしたという。
  • 先行のTTS(Kokoro)と比べてQwen3 TTSには単語レベルのタイミングやフォネム出力が不足していたため、字幕や口の動きに必要なタイミングを取る目的でCTCによる単語レベルアラインメントを実装した。
  • これらの統合の後、開発者は自分のQwen3-TTSボイスを微調整(ファインチューニング)し、その結果が表現力や実用性を大きく押し上げたと述べている。
Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

みなさん、こんにちは。

約1年ほど前に、楽しいサイドプロジェクトとしてPersona Engineをリリースして投稿しました。VTuberのようなリアルタイムのアバター(口パク)を用意しつつ、ASR -> LLM -> TTSの一連のパイプラインを完全にローカルで動かそうとしていました。これを実現できて結果にもとても満足していたのですが、私のTTSは確実に足りないところがありました。というのも、その当時はSesameを参照として使っていたからです。その後、しばらく長い休止期間を取りました。

一週間か二週間ほど前に、プロジェクトをアップデートしてみようと思い、あわせてローカルモデルがどこまで進歩したのかも確認したくなりました。そして、Qwen3 TTSには驚くほど良い意味でやられました(pleasantly surprised)。最初のテストでは不足が目立ちました。特にQwenチーム自身が公開しているバージョンではそうでした。でも、いろいろ掘り下げたり、たくさん実験したりした結果、私は以下をできるようになりました:

  1. モデルでストリーミングが確実に動くようにする。モデルのアーキテクチャがこの用途にぴったりです。デコーダがスライディングウィンドウを使っているため、LLMの応答をストリームしてもまったく問題なく、TTSはプロソディ、ピッチ、イントネーションの一貫性を保ったまま続きます。
  2. llama.cppで動くようにする。私はC#を使っているのでスピードが重要で、さらに量子化も行いました。
  3. Kokoro(前の、よりロボットっぽく聞こえるTTS)にあった語レベルのタイミングやフォネムが、このモデルには不足していました。そのため、特定の単語がいつ話されるのかを把握できるように、CTCによる語レベルアライメントを実装する必要がありました(字幕にも必要ですし、フォネムが口の動きと正しく同期するためにも重要です)。

これらをすべて終えた後、私は自分自身のQwen3-TTSボイスをファインチューニングすることも決めました。クローン能力はとても素晴らしいのですが、文脈理解がかなり不足していて、発音の面で苦労します。さらに、Qwenチームが提供しているカスタム学習済みボイスには女性の母語話者がいなかったため、新しいLive2Dモデルを作りたくありませんでした。

結局、ファインチューニングの結果には本当に驚かされました。今後もたぶん改善を続けると思います。

GitHubはこちらです:https://github.com/fagenorn/handcrafted-persona-engine

ぜひチェックして、楽しんで、そしてこの先あなたがそれでやろうと思うどんなクレイジーなことでも教えてください。

submitted by /u/fagenorn
[link] [comments]