AI Navigate

Qwen 3.6 における KV キャッシュ圧縮 — 1M コンテキスト: 10.7GB → 6.9GB（V: 3.5倍小さく）

Reddit r/LocalLLaMA / 2026/4/18

📰 ニュース

共有:

要点

1MコンテキストでのQwen 3.6におけるKVキャッシュ圧縮のクイックデモ。

この実行では：

KVキャッシュ: 10.74 GB → 6.92 GB

Vキャッシュ: 5.37 GB → 1.55 GB（約3.5倍の削減）

初期テスト（3つのシード）ではPPLのほぼゼロの変化がまだ見られていますが、現時点では主にメモリと長いコンテキスト時の挙動に注目しています。

KVキャッシュに対する、構造化された圧縮とエビクション（追い出し）アプローチをどう考えているのか気になります。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。