新しいBartowskiのGemma 4量子化(quants)はかなり遅くなっている?

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • BartowskiがGemma 4の新しい量子化(quants)版をリリースし、少なくとも1人のユーザーが新しいファイルに更新した後、スループットが大幅に低下したと報告している。
  • 報告されている性能低下は、トークン生成速度(tg/s)がおよそ半分になり、26BやE4Bのようなモデルではプロンプト処理速度(pp/s)が約75%程度になっている。
  • 議論では、モデルの重み(weights)は変わっていない可能性がある一方で、GGUFヘッダーの変更や有効化されたllama.cppの機能が、ユーザーの環境での低下の原因になっているのではないかと推測されている。
  • コメント投稿者には、元のリリースと新しいリリースで何が変わったのか、また特定のランタイム/コンパイラ機能や量子化設定が原因なのかを特定してほしいという依頼がされている。

BartowskiがGemma 4の新しいクォント(quants)をアップロードしました。26BとE4B用にダウンロードしました。

彼の元のリリースと比べて、両方ともtg/sがだいたい半分くらいになっています。pp/sは75%です。

何が変わったのか分かる人いますか? 重み(weights)の問題ではないと思っていますが、ggufのヘッダーが、私のハードウェアと相性が悪い llama.cpp の機能を今は有効にしているのかもしれません。

情報があれば何でもありがとうございます!

submitted by /u/Top-Rub-4670
[link] [comments]