llama.cpp上のGemma 4は、これで安定するはず

Reddit r/LocalLLaMA / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者によると、llama.cppへの特定のマージ(PR #21534)の後、これまで知られていたGemma 4の問題が解消され、現行のllama.cppソースコード(master)上でGemma 4がより安定して動作するはずだという。
  • `--chat-template-file` を使って、llama.cppリポジトリ内の `models/templates` 配下に含まれるテンプレートファイルを指定し、Gemma 4 31B をインタリーブ(interleaved)チャットテンプレートで実行することを推奨している。
  • 信頼性とパフォーマンスの観点から、この投稿では `--cache-ram 2048 -ctxcp 2` を使ってシステムRAMの問題が起きるリスクを減らすことを提案している。
  • 著者は、混合精度のKVキャッシュ設定(Q5 K と Q4 V)を用いても大きなパフォーマンス低下は確認されなかったと述べているが、結果は環境によって異なり得る点は認めている。
  • ビルドする人への注意として、CUDA 13.2 は壊れていることが確認されており、動作しないビルドを引き起こし得るため使用しないよう警告している。なお、NVIDIAはこの問題に対応している。

https://github.com/ggml-org/llama.cpp/pull/21534 のマージにより、Llama.cpp における既知の Gemma 4 の問題への修正はすべて解決されました。私はしばらくの間、Q5 クォントで Gemma 4 31B を動かしていますが、何の問題も起きていません。

実行時のヒント:

  • 相互(インタリーブ)テンプレートに対して、Aldehir が用意した --chat-template-file で実行することを忘れないでください(これは llama.cpp の models/templates 配下にあります)
  • システムRAMの問題を避けるために、私は --cache-ram 2048 -ctxcp 2 での実行を強く推奨します
  • KVキャッシュを Q5 K と Q4 V で動かしてみたところ、大きなパフォーマンス低下は見られませんでした。もちろん YMMV

楽しんでください :)

(そうそう、重要な注記です。私がここで Llama.cpp について話しているのは、追随が遅れているリリースではなく、*ソースコード*のことです。これは現在の master からビルドされたコードを指しています)

ビルドに関する重要な注意: 現時点では CUDA 13.2 を使用しないでください。これは CONFIRMED BROKEN(Nvidia の担当者は既に調査に取り掛かっています)で、正しく動作しないビルドが生成されます。

submitted by /u/ilintar
[link] [comments]