https://github.com/ggml-org/llama.cpp/pull/21534 のマージにより、Llama.cpp における既知の Gemma 4 の問題への修正はすべて解決されました。私はしばらくの間、Q5 クォントで Gemma 4 31B を動かしていますが、何の問題も起きていません。
実行時のヒント:
- 相互(インタリーブ)テンプレートに対して、Aldehir が用意した
--chat-template-fileで実行することを忘れないでください(これは llama.cpp の models/templates 配下にあります) - システムRAMの問題を避けるために、私は
--cache-ram 2048 -ctxcp 2での実行を強く推奨します - KVキャッシュを Q5 K と Q4 V で動かしてみたところ、大きなパフォーマンス低下は見られませんでした。もちろん YMMV
楽しんでください :)
(そうそう、重要な注記です。私がここで Llama.cpp について話しているのは、追随が遅れているリリースではなく、*ソースコード*のことです。これは現在の master からビルドされたコードを指しています)
ビルドに関する重要な注意: 現時点では CUDA 13.2 を使用しないでください。これは CONFIRMED BROKEN(Nvidia の担当者は既に調査に取り掛かっています)で、正しく動作しないビルドが生成されます。
[link] [comments]




