小さなGemma-4モデルで音声を動かせてる人いる？

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

Redditのユーザーが、小さなGemma-4モデルで音声パイプライン（VAD → LLM → TTS）を有効化する際に苦戦しており、複数のセットアップで音声が「動かない／うまくいかない」と感じている。
彼らは複数のllama.cppビルドやUnsloth Studioを試したが成功せず、現在のコミュニティ向けの構成（スタック）が、これらのモデルに必要な音声フローを確実にサポートできていない可能性を示唆している。
うまく動いた唯一の選択肢として、GoogleのLiteRT LMを挙げている。ただし、音声が絡むとCPUのみの推論が強制され、パフォーマンスが大きく低下するとのこと。
GitHub上でGPU実装がまだ待たれているようだと述べ、代替策や、実際に動作する別のスタック（構成）をコミュニティに求めている。
この投稿は、ローカル／オフラインで音声対応LLMワークフローを小さなGemma-4で運用する際に、特にGPUアクセラレーションやエンドツーエンドの音声処理の面で実用的なギャップがあることを強調している。

パイプラインを試している

VADの音声チャンク > LLM > TTS

ASR部分は完全にスキップ

ただ、音声がどうしても動かない

複数の llama.cpp のビルドと unsloth studio を試した
これまでのところ成果なし

動くのは LiteRT LM だけ（Google製）
でも音声が関わるとCPUのみの推論を強制されて
パフォーマンスが落ちる

Github で、GPU実装はまだ準備中だと見た

何か回避策や、実際に動く別の構成スタックはある？？？

投稿者: /u/KokaOP
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

小さなGemma-4モデルで音声を動かせてる人いる？

要点

関連記事

Black Hat USA

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険