実験：エントロピー＋OLS＋SVDでKVキャッシュを圧縮

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

著者は、一般的なTop-Kプルーニング以外のKVキャッシュ最適化手法を検討し、プルーニングが「選択的に」失敗して少数のトークンが大きなエラースパイクを引き起こし得る点を観察した。
提案する手法は3段階で構成され、トークン選択にエントロピーを用い、再構成にOLSを用い、圧縮にSVDを用いる。
まだプロトタイプ段階の初期結果では、低メモリ条件でエラーが約3倍低減し、深刻なエラースパイクの発生も抑えられる。
場合によっては、より低いエラーとより低いメモリ使用量を同時に達成できることもあるが、研究は未完成のため破綻し得る箇所へのフィードバックを求めている。

私は、Top-K剪定以外のKVキャッシュ最適化について探求してきました。

観察: 剪定は*選択的に*失敗します――いくつかのトークンが、大きな誤差スパイクを引き起こします。

そこで、私は次を試しました:

- エントロピー（選択）
- OLS（再構成）
- SVD（圧縮）

初期結果:

- 低メモリ時に約3×低い誤差
- 誤差スパイクを回避
- 場合によっては、さらに低いメモリ

まだプロトタイプです。ぜひフィードバックが欲しいです。特に、どこで壊れる可能性がありそうか知りたいです。