You guys seen this? beats turboquant by 18%

Reddit r/LocalLLaMA / 4/8/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

共有:

Key Points

Dynamis-Labsの「spectralquant」(GitHub公開)は、KVキャッシュのキー・ベクトルを解析して重要度の高いものを選別し、不要なものを大幅に削減する量子化/圧縮手法を採用しています。
具体的にはKVキャッシュのキー・ベクトルの97%を「信号が多い成分」として有用と判断したもの以外は破棄する設計だとされています。
投稿では、同様の領域で知られる既存手法（TurboQuant）に対して約18%の性能優位（改善）を示すと主張されています。
既存の推論最適化（メモリ/計算削減）に関心があるユーザーにとって、ローカルLLM運用の効率化に直結する可能性があります。

basically, they discard 97% of the kv cache key vectors after figuring out which ones have the most signal