Are you quanting your memory?

Reddit r/LocalLLaMA / 5/2/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical Usage

Key Points

  • The post asks how practitioners are handling KVキャッシュ(kv cache)を量子化しているか、具体的にBF16、Q8、Q4のどれを使っているのかを知りたい意図が示されています。
  • 投稿者は、G4やQ3.6がネイティブに学習された前提としてBF16を一貫して使うことで幻覚(ハルシネーション)が減ることを期待しています。
  • 他の量子化設定(Q8/Q4)でも良好な結果が出ているか、またTurboquantのような手法を使った経験があるかを募集しています。
  • 目的は特定の製品発表ではなく、コミュニティの運用ノウハウや実測結果の共有を促すことです。

Title.

Curious about how people are generally dealing with the kv cache. BF16? Q8? Q4? Turboquant or some other secret sauce?

I run bf16 everything hoping that I'd get less hallucinations and because that's what the g4 and q3.6 are natively trained on anyways. But very interested to hear if people are having good results running q8 or q4 or if anyone has good results using turbo3/4 or similar.

submitted by /u/Plastic-Stress-6468
[link] [comments]

Are you quanting your memory? | AI Navigate