C++での Qwen3 TTS：1.7B 対応、話者エンコーディング抽出、デスクトップUI

Reddit r/LocalLLaMA / 2026/3/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Qwen3 TTSのC++版のForkが、1.7Bモデル対応、話者エンコーディング抽出、JNIインターフェース、および話者指示（カスタム音声モデル）を追加。
WindowsとLinuxでローカルにTTSを実行・テストするためのデスクトップアプリUIをKotlin Multiplatform（qwen-tts-studio）で構築しました。
このプロジェクトはソースからのコンパイルが必要で、モデルの手動GGUF変換が必要で、DIYワークフローと設定手順を示しています。
この投稿はGitHubリポジトリとプレビュー画像を提示しており、作業をフィードバックのためのまだ進行中の貢献として位置づけています。

この数週間の週末を使い、Qwen3 TTSの実装に取り組んできました。これは https://github.com/predict-woo/qwen3-tts.cpp のフォークですが、機能を追加し、コードベースをよりクリーンにしたものです: https://github.com/Danmoreng/qwen3-tts.cpp

現在対応している機能:

また、Kotlin Multiplatformを使用して、これのデスクトップアプリUIも作成しました:

このアプリはソースからのコンパイルが必要で、WindowsとLinuxで動作します。モデルはまだ手動でGGUFへ変換する必要があります。

両方のリポジトリにはまだ仕上げが不足しています。ただし、ここに投稿しても良いと感じる状態です。

投稿者 /u/Danmoreng
[リンク] [コメント]

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to