新しいGemma 4のGGUFをダウンロードする必要がありそうです

Reddit r/LocalLLaMA / 2026/4/8

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Hugging Faceで共有されているGemma 4 GGUFファイル(E2B-itや26Bバリアントを含む)が更新されており、ユーザーは最新バージョンをダウンロードする必要があるかもしれません。
  • この更新は、heterogeneous iSWAにおける注意回転(attention rotation)へのkv-cache対応など、llama.cppに関連する複数の互換性および正確性の問題に対処しています。
  • 重要なCUDA関連の修正では、融合(fuse)を行う前にバッファの重なり(buffer overlap)をチェックし、未使用トークンに関わる問題を防止します。
  • Gemma 4向けに、BPEデトークナイザでのバイトトークン処理や、変換時に「add bos」を設定するなど、いくつかのトークナイザおよび変換の改善が追加されました。
  • さらに、Gemma 4固有のパーサ変更、final_logit_softcappingの読み取り、カスタムの改行分割など、いくつかのパースおよびモデル形式の調整が行われました。

https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

u/danielhanchen による投稿:

私たちは、次の内容に対応してそれらを再度更新しました:

  1. kv-cache : 異種 iSWA に対する attention rotation の対応 https://github.com/ggml-org/llama.cpp/pull/21513
  2. CUDA: fusing の前にバッファの重なりを確認 - 重要な修正 <unused24> トークン https://github.com/ggml-org/llama.cpp/pull/21566
  3. vocab : Gemma4 向けに BPE detokenizer へバイトトークン処理を追加 https://github.com/ggml-org/llama.cpp/pull/21488
  4. convert : Gemma 4 で "add bos" == True を設定 https://github.com/ggml-org/llama.cpp/pull/21500
  5. common : gemma 4 専用パーサを追加 https://github.com/ggml-org/llama.cpp/pull/21418
  6. llama-model: Gemma 4 の final_logit_softcapping を読み取る https://github.com/ggml-org/llama.cpp/pull/21390
  7. llama: Gemma 4 向けのカスタム改行分割を追加 https://github.com/ggml-org/llama.cpp/pull/21406
投稿者 /u/jacek2023
[リンク] [コメント]