llama.cpp上のGemma 4は、これで安定するはず

Reddit r/LocalLLaMA / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

著者によると、llama.cppへの特定のマージ（PR #21534）の後、これまで知られていたGemma 4の問題が解消され、現行のllama.cppソースコード（master）上でGemma 4がより安定して動作するはずだという。
`--chat-template-file` を使って、llama.cppリポジトリ内の `models/templates` 配下に含まれるテンプレートファイルを指定し、Gemma 4 31B をインタリーブ（interleaved）チャットテンプレートで実行することを推奨している。
信頼性とパフォーマンスの観点から、この投稿では `--cache-ram 2048 -ctxcp 2` を使ってシステムRAMの問題が起きるリスクを減らすことを提案している。
著者は、混合精度のKVキャッシュ設定（Q5 K と Q4 V）を用いても大きなパフォーマンス低下は確認されなかったと述べているが、結果は環境によって異なり得る点は認めている。
ビルドする人への注意として、CUDA 13.2 は壊れていることが確認されており、動作しないビルドを引き起こし得るため使用しないよう警告している。なお、NVIDIAはこの問題に対応している。

https://github.com/ggml-org/llama.cpp/pull/21534 のマージにより、Llama.cpp における既知の Gemma 4 の問題への修正はすべて解決されました。私はしばらくの間、Q5 クォントで Gemma 4 31B を動かしていますが、何の問題も起きていません。

実行時のヒント:

相互（インタリーブ）テンプレートに対して、Aldehir が用意した --chat-template-file で実行することを忘れないでください（これは llama.cpp の models/templates 配下にあります）
システムRAMの問題を避けるために、私は --cache-ram 2048 -ctxcp 2 での実行を強く推奨します
KVキャッシュを Q5 K と Q4 V で動かしてみたところ、大きなパフォーマンス低下は見られませんでした。もちろん YMMV

楽しんでください :)

（そうそう、重要な注記です。私がここで Llama.cpp について話しているのは、追随が遅れているリリースではなく、*ソースコード*のことです。これは現在の master からビルドされたコードを指しています）

ビルドに関する重要な注意: 現時点では CUDA 13.2 を使用しないでください。これは CONFIRMED BROKEN（Nvidia の担当者は既に調査に取り掛かっています）で、正しく動作しないビルドが生成されます。

submitted by /u/ilintar
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

llama.cpp上のGemma 4は、これで安定するはず

要点

関連記事

Black Hat USA

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」