LLMをTTSと音声認識と一緒に使っていますか？

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

投稿では、音声認識を入力に、TTSを音声出力にしてLLMとやり取りしているかどうかが問われています。
著者は、自身のローカル構成について、TTSにFast-Kokoro、音声認識にWhisperモデルを使うKoboldcpp、そしてSillyTavern経由でGemma 4の小型E4Bモデルを使用していると説明しています。
著者は、RTX 4060 Ti（16 GB VRAM）と32 GB RAMの環境で、システムがほぼリアルタイムに近い体感だと報告しており、音声での会話が実用的だと述べています。
著者は、このような音声駆動のLLMワークフローがどの程度一般的なのか、また他の人は日常的に使っているのか／ほとんど使っていないのかについて、コミュニティからの意見を求めています。

タイトルのとおりなのですが、音声認識を使ってLLMに話しかけて、TTSモデルでその回答を聞き返していますか？

昨夜はあまり眠れなかったので、パソコンに座ってTTS用のFast-Kokoroをインストールし、WhisperモデルでKoboldcppを設定しました。ここまでのところ、SillyTavernとGemma 4 small E4Bモデルで素晴らしい体験に見えています。

私は16GB VRAMのRTX 4060 Tiと32GBのRAMを持っていて、この構成（SillyTavern + Koboldcpp + Whisper + Gemma 4-E4B + Fast Kokoro）だとほぼリアルタイムなので、音声で会話する用途に現実的です。

これは私にとってかなり新しいことです（以前はテスト目的でTTSをしばらく前に使っただけでした）。ここにいる皆さんはどのようにやっていますか？LLMに話しかけていますか、それとももっと珍しい用途なのでしょうか？