Qwen 3.5 9Bの絶対最低レイテンシを追求する:1ストリームのリアルタイムTTSに最適な推論エンジンはどれか?

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 投稿者は FP16 と EXL3 量子化を適用した Qwen 3.5 9B を RTX 3090 Ti で評価し、単一ストリームのリアルタイム TTS パイプラインのレイテンシを最小化することを目的としている(TTFT と TPS を主要指標としている)。
  • 現在の TTFT は約 120–170 ms、TPS は約 100–120 トークン/秒で、約 100 トークンを生成するための総レイテンシの目標はおおよそ 500–700 ms。
  • 低レイテンシ推論技術とフラグ(Flash Attention やキャッシュ最適化など)を探索しており、オーバーヘッドと潜在的な利得を評価するために、より小さなドラフトモデルを用いた推測デコードを検討している。
  • ゴールドスタンダードなバックエンド/推論エンジン設定を特定し、超低レイテンシ・単一ストリーム生成を実現することを目指している。

皆さん、こんにちは。

リアルタイムのボイスチャットパイプライン(STT -> LLM -> TTS)を構築しており、「Time to Sentence」の部分でボトルネックに直面しています。100トークンの応答を生成する総遅延を最小化するのが私の目標です。

私の要件:
* モデル: Qwen 3.5 9B(現在 FP16 と EXL3 クォンタイズをテスト中)
* ハードウェア: 1x NVIDIA RTX 3090 TI.
* 指標: 可能な限り低い TTFT(Time To First Token)と、単一ストリーム(バッチサイズ 1)に対する最高 TPS(Tokens Per Second)。
* 目標: 約100トークンの総時間を可能な限り 500–700ms に近づけるか、あるいはそれ以下にする。

現在のベンチマーク(単一ストリーム):
いくつかのアプローチを試して、だいたい以下のとおりです:
* TTFT: 約120ms〜170ms
* TPS: 約100〜120トークン/秒
(Nvidia RTX 3090 TI 1枚でのテスト)

この単一ユーザーのリアルタイム利用ケースでは、低遅延推論の現在の“金標準”とされるものを見つけようとしています。いくつかの異なるバックエンドを検討しましたが、TTFTを最小化しつつTPSを高く保つ適切なバランスを見つけるのは難しいです。開始後に持続生成が得意なエンジンもありますが、初期のオーバーヘッドのために総応答時間が対話型インタフェースとして望ましい水準より高くなることがあります。

特に、Flash Attention や最適化されたキャッシュ設定など、重要なミリ秒を削ることができる特定のフラグや低遅延モードに関心があります。さらに、小型ドラフトモデル(tiny Qwen や Gemma など)を用いた推測的デコードも検討していますが、9Bモデルの場合、オーバーヘッドが実際に純粋なゲインをもたらすのか、それとも性能を削ってしまうのか確信が持てません。

ご意見ありがとうございます!

投稿者: /u/Nasa1423
[リンク] [コメント]
広告