FishSpeech S2 Pro ストリーミングコード（380ms TTFA、RTX 5090でテスト）

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

FishSpeech S2 Pro のストリーミングコードは、著者のテスト設定によると torch.compile を使用した場合、RTX 5090 上で約 380ms の TTFA を達成します。
テストでは torch.compile を使わない場合は約 800ms、同じハードウェアとドライババージョンで torch.compile を使用した場合は 380ms になると報告されています。
著者は、メモリ使用量の削減、TTFA の改良、より長いプロンプトのサポートを含む今後の最適化を概説し、プロファイリング、より小さな最初のチャンク、CUDA グラフの活用を検討しています。
データフローと作業の方向性を示す PR（1193）と概略図へのリンクがあり、他者にもこのアプローチを採用することを促しています。

ええと…ええと…、私はあなたの普通のウェブ開発者で、MLエンジニアではないので、呪われたコードについてお詫びします 🤣

ストリーミングは、Arch Linux、RTX 5090、NVIDIA ドライバ 595.45.04、9950x3D 環境で、最初のオーディオチャンクが到達するまで約400ms の低 TTFA で、エンドツーエンドで動作するはずです。ただし、メモリ、TTFA、長いプロンプトにはまだ作業が必要です。

Here's some ideas:

正しく torch.compile を適用する方法を見つける。現状では、スモークのエンドツーエンドテストのウォームアップ後にだけリコンパイルされ、リコンパイルには約6分かかります。
トークンをスケジュールに従ってボコーダーへストリームする（lengyue に基づくスケジュールで）、1つの大きな塊ではなく。
メモリ使用量をさらに削減し、TTFA を改善する（プロファイリング、最初のチャンクを小さく、CUDA グラフの活用）。
OOM なしで長いプロンプト（約30–50語）をサポートする。おそらく #1 がそれを解決するはずです。

私はメンテナーから少しの助けを得ました。私の解決策はそれほど印象的ではないかもしれませんが、他の人がこの方向に取り組むのを可能にするはずです。

This は、実際に何が起こっているかのおおよその図です:

これは改善の余地があります。私が理解している範囲では、DAC は賢いスケジューリングでトークンを独自に処理でき、LLM が PCM チャンクを実際に作成し終えるまで待つことはありません 🤷

とにかく、以下が私のテストです。

Without torch.compile の場合、TTFA は約 800ms です。

With torch.compile (380ms) + some logs / instrumentation