LLMをTTSと音声認識と一緒に使っていますか?

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 投稿では、音声認識を入力に、TTSを音声出力にしてLLMとやり取りしているかどうかが問われています。
  • 著者は、自身のローカル構成について、TTSにFast-Kokoro、音声認識にWhisperモデルを使うKoboldcpp、そしてSillyTavern経由でGemma 4の小型E4Bモデルを使用していると説明しています。
  • 著者は、RTX 4060 Ti(16 GB VRAM)と32 GB RAMの環境で、システムがほぼリアルタイムに近い体感だと報告しており、音声での会話が実用的だと述べています。
  • 著者は、このような音声駆動のLLMワークフローがどの程度一般的なのか、また他の人は日常的に使っているのか/ほとんど使っていないのかについて、コミュニティからの意見を求めています。

タイトルのとおりなのですが、音声認識を使ってLLMに話しかけて、TTSモデルでその回答を聞き返していますか?

昨夜はあまり眠れなかったので、パソコンに座ってTTS用のFast-Kokoroをインストールし、WhisperモデルでKoboldcppを設定しました。ここまでのところ、SillyTavernとGemma 4 small E4Bモデルで素晴らしい体験に見えています。

私は16GB VRAMのRTX 4060 Tiと32GBのRAMを持っていて、この構成(SillyTavern + Koboldcpp + Whisper + Gemma 4-E4B + Fast Kokoro)だとほぼリアルタイムなので、音声で会話する用途に現実的です。

これは私にとってかなり新しいことです(以前はテスト目的でTTSをしばらく前に使っただけでした)。ここにいる皆さんはどのようにやっていますか?LLMに話しかけていますか、それとももっと珍しい用途なのでしょうか?

投稿者 /u/film_man_84
[リンク] [コメント]