音声エージェント用パイプラインにおける Qwen3-TTS＋Qwen3.6-35B：3週間のメモ

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、Whisper → Qwen3.6（LLM）→ Qwen3-TTS の構成でローカルの音声アシスタントを作り、タイピング待ちのような間ではなく会話らしい応答を目指したと述べています。
Kokoro や XTTS-v2 などと比べて、Qwen3-TTS は短い相づち・掛け合いのフレーズでも抑揚やイントネーションの表現が大きく改善し、XTTS-v2 で見られた数秒規模のコールドスタート遅延も回避できたと報告しています。
LLM 側では、Qwen3.6-35B-A3B を使うことでターン間に“思考（考慮）”が保持され、毎回リセットされずに多ターンの音声セッションで文脈が積み上がる点が有効だと評価しています。
パイプライン全体の往復遅延は実運用に耐える水準で、文中で途切れるような不自然なポーズ感が減ったとされています。
未解決の課題として、音声ループ内でのツール呼び出し（検索・取得など）が挟まると TTS 開始までの待ち時間が発生する点があり、ツール結果が返る前に部分テキストをストリーミングする方法を探していると述べています。

今朝 Qwen3-TTS スレッドを見て、やっとこれを書き起こす気になりました。

背景：過去 3 週間、クライアント向けにローカルの音声アシスタントを構築していました。RAG バックエンドの上に、音声優先のインターフェースを載せています。用途は、会話しているように感じられる応答が必要な AI アシスタントです。カーソルが止まるのを待つような、いわゆるタイピングテストのようにはしたくありません。

TTS が弱点でした。まず Kokoro を試しました。ナレーション向けにはしっかりしている一方で、「got it」や「sure, one sec」みたいな短いフレーズだと平板になります。これは音声インターフェースで支配的になる、あの往復のやつです。XTTS-v2 はより表現力がありましたが、コールドスタートの遅延が GPU の状態によって時々 4〜6 秒になることがあり、それが流れをぶった切ります。

この 1 週間、Qwen3-TTS に入れ替えたところ、その差は本物です。質問のイントネーションにおける表現力が、明らかに改善されました。固有名詞や略語はまだ少し一貫性に欠けますが、一般的な会話用途ではもうロボットっぽさは感じません。こちらにとっては、何かを入れ替える衝動なしにそのまま動かし続けられた最初のローカル TTS モデルです。

LLM 側について： [Qwen3.6-35B-A3B](https://huggingface.co/Qwen/Qwen3.6-35B-A3B) 。ターンをまたいだ思考の維持が、音声セッションで実際に動く理由です。前の推論が引き継がれるため、マルチターンの文脈が毎回リセットされずに積み重なります。ユーザーが 7 往復前の何かを参照してくるときに、特に重要です。

完全なパイプラインは whisper -> qwen3.6 -> qwen3-TTS です。往復のレイテンシは実用的です。即時ではありませんが、文の途中で壊れたような間が入る感じもしません。

まだ解決できていないことが 1 つあります：音声ループ内でのツール呼び出しです。ユーザーが検索ステップを必要とする質問をすると、TTS が開始できるまでの間が空きます。ツール結果が返ってくる前に、途中の応答テキストをうまくストリーミングする方法を見つけられていません。誰かがそれをうまく動かせているなら、どうやっているのか本当に気になります。

submitted by /u/ecompanda
[link] [comments]