| 1MコンテキストでのQwen 3.6におけるKVキャッシュ圧縮のクイックデモ。 この実行では: KVキャッシュ: 10.74 GB → 6.92 GB Vキャッシュ: 5.37 GB → 1.55 GB(約3.5倍の削減) 初期テスト(3つのシード)ではPPLのほぼゼロの変化がまだ見られていますが、現時点では主にメモリと長いコンテキスト時の挙動に注目しています。 KVキャッシュに対する、構造化された圧縮とエビクション(追い出し)アプローチをどう考えているのか気になります。 [リンク] [コメント] |
Qwen 3.6 における KV キャッシュ圧縮 — 1M コンテキスト: 10.7GB → 6.9GB(V: 3.5倍小さく)
Reddit r/LocalLLaMA / 2026/4/18
📰 ニュース
要点
- この記事では、1M トークンのコンテキストウィンドウを用いた Qwen 3.6 の KV キャッシュ圧縮についての簡単なデモを報告しています。