AI Navigate

C++での Qwen3 TTS:1.7B 対応、話者エンコーディング抽出、デスクトップUI

Reddit r/LocalLLaMA / 2026/3/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Qwen3 TTSのC++版のForkが、1.7Bモデル対応、話者エンコーディング抽出、JNIインターフェース、および話者指示(カスタム音声モデル)を追加。
  • WindowsとLinuxでローカルにTTSを実行・テストするためのデスクトップアプリUIをKotlin Multiplatform(qwen-tts-studio)で構築しました。
  • このプロジェクトはソースからのコンパイルが必要で、モデルの手動GGUF変換が必要で、DIYワークフローと設定手順を示しています。
  • この投稿はGitHubリポジトリとプレビュー画像を提示しており、作業をフィードバックのためのまだ進行中の貢献として位置づけています。
C++での Qwen3 TTS:1.7B サポート、話者エンコーディング抽出、デスクトップUI

この数週間の週末を使い、Qwen3 TTSの実装に取り組んできました。これは https://github.com/predict-woo/qwen3-tts.cpp のフォークですが、機能を追加し、コードベースをよりクリーンにしたものです: https://github.com/Danmoreng/qwen3-tts.cpp

現在対応している機能:

  • 1.7Bモデル
  • 話者エンコーディング抽出
  • JNIインターフェース
  • 話者指示(カスタム音声モデル)
  • 両方のベースモデル(0.6Bおよび1.7B)での音声クローン

また、Kotlin Multiplatformを使用して、これのデスクトップアプリUIも作成しました:

https://github.com/Danmoreng/qwen-tts-studio

https://preview.redd.it/due94cp1m1pg1.png?width=2142&format=png&auto=webp&s=11ab89e23c842653c5ca0de383725008db271ec1

このアプリはソースからのコンパイルが必要で、WindowsとLinuxで動作します。モデルはまだ手動でGGUFへ変換する必要があります。

両方のリポジトリにはまだ仕上げが不足しています。ただし、ここに投稿しても良いと感じる状態です。

投稿者 /u/Danmoreng
[リンク] [コメント]