| ええと…ええと…、私はあなたの普通のウェブ開発者で、MLエンジニアではないので、呪われたコードについてお詫びします 🤣 https://github.com/fishaudio/fish-speech/pull/1193/changes ストリーミングは、Arch Linux、RTX 5090、NVIDIA ドライバ 595.45.04、9950x3D 環境で、最初のオーディオチャンクが到達するまで約400ms の低 TTFA で、エンドツーエンドで動作するはずです。ただし、メモリ、TTFA、長いプロンプトにはまだ作業が必要です。 Here's some ideas:
私は メンテナー から少しの助けを得ました。私の解決策はそれほど印象的ではないかもしれませんが、他の人がこの方向に取り組むのを可能にするはずです。 This は、実際に何が起こっているかのおおよその図です: これは改善の余地があります。私が理解している範囲では、DAC は賢いスケジューリングでトークンを独自に処理でき、LLM が PCM チャンクを実際に作成し終えるまで待つことはありません 🤷 とにかく、以下が私のテストです。 Without With I |
FishSpeech S2 Pro ストリーミングコード(380ms TTFA、RTX 5090でテスト)
Reddit r/LocalLLaMA / 2026/3/15
📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage
要点
- FishSpeech S2 Pro のストリーミングコードは、著者のテスト設定によると torch.compile を使用した場合、RTX 5090 上で約 380ms の TTFA を達成します。
- テストでは torch.compile を使わない場合は約 800ms、同じハードウェアとドライババージョンで torch.compile を使用した場合は 380ms になると報告されています。
- 著者は、メモリ使用量の削減、TTFA の改良、より長いプロンプトのサポートを含む今後の最適化を概説し、プロファイリング、より小さな最初のチャンク、CUDA グラフの活用を検討しています。
- データフローと作業の方向性を示す PR(1193)と概略図へのリンクがあり、他者にもこのアプローチを採用することを促しています。




