タイトルのとおりなのですが、音声認識を使ってLLMに話しかけて、TTSモデルでその回答を聞き返していますか?
昨夜はあまり眠れなかったので、パソコンに座ってTTS用のFast-Kokoroをインストールし、WhisperモデルでKoboldcppを設定しました。ここまでのところ、SillyTavernとGemma 4 small E4Bモデルで素晴らしい体験に見えています。
私は16GB VRAMのRTX 4060 Tiと32GBのRAMを持っていて、この構成(SillyTavern + Koboldcpp + Whisper + Gemma 4-E4B + Fast Kokoro)だとほぼリアルタイムなので、音声で会話する用途に現実的です。
これは私にとってかなり新しいことです(以前はテスト目的でTTSをしばらく前に使っただけでした)。ここにいる皆さんはどのようにやっていますか?LLMに話しかけていますか、それとももっと珍しい用途なのでしょうか?
[リンク] [コメント]




