Qwen 3.5 9Bの絶対最低レイテンシを追求する：1ストリームのリアルタイムTTSに最適な推論エンジンはどれか？

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

投稿者は FP16 と EXL3 量子化を適用した Qwen 3.5 9B を RTX 3090 Ti で評価し、単一ストリームのリアルタイム TTS パイプラインのレイテンシを最小化することを目的としている（TTFT と TPS を主要指標としている）。
現在の TTFT は約 120–170 ms、TPS は約 100–120 トークン/秒で、約 100 トークンを生成するための総レイテンシの目標はおおよそ 500–700 ms。
低レイテンシ推論技術とフラグ（Flash Attention やキャッシュ最適化など）を探索しており、オーバーヘッドと潜在的な利得を評価するために、より小さなドラフトモデルを用いた推測デコードを検討している。
ゴールドスタンダードなバックエンド/推論エンジン設定を特定し、超低レイテンシ・単一ストリーム生成を実現することを目指している。

皆さん、こんにちは。

リアルタイムのボイスチャットパイプライン（STT -> LLM -> TTS）を構築しており、「Time to Sentence」の部分でボトルネックに直面しています。100トークンの応答を生成する総遅延を最小化するのが私の目標です。

私の要件:
* モデル: Qwen 3.5 9B（現在 FP16 と EXL3 クォンタイズをテスト中）
* ハードウェア: 1x NVIDIA RTX 3090 TI.
* 指標: 可能な限り低い TTFT（Time To First Token）と、単一ストリーム（バッチサイズ 1）に対する最高 TPS（Tokens Per Second）。
* 目標: 約100トークンの総時間を可能な限り 500–700ms に近づけるか、あるいはそれ以下にする。

現在のベンチマーク（単一ストリーム）:
いくつかのアプローチを試して、だいたい以下のとおりです:
* TTFT: 約120ms〜170ms
* TPS: 約100〜120トークン/秒
（Nvidia RTX 3090 TI 1枚でのテスト）

この単一ユーザーのリアルタイム利用ケースでは、低遅延推論の現在の“金標準”とされるものを見つけようとしています。いくつかの異なるバックエンドを検討しましたが、TTFTを最小化しつつTPSを高く保つ適切なバランスを見つけるのは難しいです。開始後に持続生成が得意なエンジンもありますが、初期のオーバーヘッドのために総応答時間が対話型インタフェースとして望ましい水準より高くなることがあります。

特に、Flash Attention や最適化されたキャッシュ設定など、重要なミリ秒を削ることができる特定のフラグや低遅延モードに関心があります。さらに、小型ドラフトモデル（tiny Qwen や Gemma など）を用いた推測的デコードも検討していますが、9Bモデルの場合、オーバーヘッドが実際に純粋なゲインをもたらすのか、それとも性能を削ってしまうのか確信が持てません。

ご意見ありがとうございます！

投稿者: /u/Nasa1423
[リンク] [コメント]

Black Hat USA

AI Business

NoteGen：アイデアをキャプチャし、より賢く整理し、AIに重い作業を任せよう

Dev.to

Claude Webhooks：エージェント主導の外部アラートのための本番パターン4選

Dev.to

NVIDIA、SANA-WMを公開：分単位で効率よく世界モデルを生成

Dev.to

同じダブル振り子プロンプトでも、θの符号（向き）の解釈が逆：レンダラーは共通で、両モデルの差は数秒で見える

Reddit r/LocalLLaMA

Qwen 3.5 9Bの絶対最低レイテンシを追求する：1ストリームのリアルタイムTTSに最適な推論エンジンはどれか？

要点

関連記事

Black Hat USA

NoteGen：アイデアをキャプチャし、より賢く整理し、AIに重い作業を任せよう

Claude Webhooks：エージェント主導の外部アラートのための本番パターン4選

NVIDIA、SANA-WMを公開：分単位で効率よく世界モデルを生成

同じダブル振り子プロンプトでも、θの符号（向き）の解釈が逆：レンダラーは共通で、両モデルの差は数秒で見える

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer