メモリ(KVキャッシュ)を量子化していますか?

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • この投稿では、KVキャッシュをどのように量子化しているかを知りたく、BF16、Q8、Q4のどれを使っているかといった具体例が求められています。
  • 投稿者は、G4やQ3.6がネイティブに学習された前提としてBF16を一貫して使うことで、幻覚(ハルシネーション)が減ることを期待しています。
  • 他の設定(Q8/Q4)でも良い結果が出ているのか、Turboquant(Turbo3/4のような手法を含む)を使った経験があるのかを募集しています。
  • 目的は新しい発表ではなく、コミュニティの実運用ノウハウや実測結果の共有を促す点にあります。

タイトル。

人々は一般的にkvキャッシュをどのように扱っているのか気になります。BF16ですか? Q8? Q4?それともTurboquantのような、何か別の秘密の工夫でしょうか?

私はbf16をすべてで実行しています。幻覚が減ることを期待しているのと、そもそもg4とq3.6はネイティブにbf16で学習されているからです。ですが、q8やq4で良い結果が出ている人がいるのか、またはturbo3/4やそれに類する手法を使って良い結果が出ている人がいるのか、ぜひ聞いてみたいです。

投稿者 /u/Plastic-Stress-6468
[リンク] [コメント]