Qwen 3.6 における KV キャッシュ圧縮 — 1M コンテキスト: 10.7GB → 6.9GB(V: 3.5倍小さく)

Reddit r/LocalLLaMA / 2026/4/18

📰 ニュース

要点

  • この記事では、1M トークンのコンテキストウィンドウを用いた Qwen 3.6 の KV キャッシュ圧縮についての簡単なデモを報告しています。
Qwen 3.6でのKVキャッシュ圧縮 — 1Mコンテキスト: 10.7GB → 6.9GB(V: 3.5倍小さく)

1MコンテキストでのQwen 3.6におけるKVキャッシュ圧縮のクイックデモ。

この実行では:

KVキャッシュ: 10.74 GB → 6.92 GB

Vキャッシュ: 5.37 GB → 1.55 GB(約3.5倍の削減)

初期テスト(3つのシード)ではPPLのほぼゼロの変化がまだ見られていますが、現時点では主にメモリと長いコンテキスト時の挙動に注目しています。

KVキャッシュに対する、構造化された圧縮とエビクション(追い出し)アプローチをどう考えているのか気になります。

投稿者 /u/Spirited-Toe-3988
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。