小さなGemma-4モデルで音声を動かせてる人いる?

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、小さなGemma-4モデルで音声パイプライン(VAD → LLM → TTS)を有効化する際に苦戦しており、複数のセットアップで音声が「動かない/うまくいかない」と感じている。
  • 彼らは複数のllama.cppビルドやUnsloth Studioを試したが成功せず、現在のコミュニティ向けの構成(スタック)が、これらのモデルに必要な音声フローを確実にサポートできていない可能性を示唆している。
  • うまく動いた唯一の選択肢として、GoogleのLiteRT LMを挙げている。ただし、音声が絡むとCPUのみの推論が強制され、パフォーマンスが大きく低下するとのこと。
  • GitHub上でGPU実装がまだ待たれているようだと述べ、代替策や、実際に動作する別のスタック(構成)をコミュニティに求めている。
  • この投稿は、ローカル/オフラインで音声対応LLMワークフローを小さなGemma-4で運用する際に、特にGPUアクセラレーションやエンドツーエンドの音声処理の面で実用的なギャップがあることを強調している。

パイプラインを試している

VADの音声チャンク > LLM > TTS

ASR部分は完全にスキップ

ただ、音声がどうしても動かない

複数の llama.cpp のビルドと unsloth studio を試した
これまでのところ成果なし

動くのは LiteRT LM だけ(Google製)
でも音声が関わるとCPUのみの推論を強制されて
パフォーマンスが落ちる

Github で、GPU実装はまだ準備中だと見た

何か回避策や、実際に動く別の構成スタックはある???

投稿者: /u/KokaOP
[リンク] [コメント]