実験:エントロピー+OLS+SVDでKVキャッシュを圧縮

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 著者は、一般的なTop-Kプルーニング以外のKVキャッシュ最適化手法を検討し、プルーニングが「選択的に」失敗して少数のトークンが大きなエラースパイクを引き起こし得る点を観察した。
  • 提案する手法は3段階で構成され、トークン選択にエントロピーを用い、再構成にOLSを用い、圧縮にSVDを用いる。
  • まだプロトタイプ段階の初期結果では、低メモリ条件でエラーが約3倍低減し、深刻なエラースパイクの発生も抑えられる。
  • 場合によっては、より低いエラーとより低いメモリ使用量を同時に達成できることもあるが、研究は未完成のため破綻し得る箇所へのフィードバックを求めている。

私は、Top-K剪定以外のKVキャッシュ最適化について探求してきました。

観察: 剪定は*選択的に*失敗します――いくつかのトークンが、大きな誤差スパイクを引き起こします。

そこで、私は次を試しました:

- エントロピー(選択)
- OLS(再構成)
- SVD(圧縮)

初期結果:

- 低メモリ時に約3×低い誤差
- 誤差スパイクを回避
- 場合によっては、さらに低いメモリ

ブログ: https://jchandra.com/posts/hae-ols/

まだプロトタイプです。ぜひフィードバックが欲しいです。特に、どこで壊れる可能性がありそうか知りたいです。

投稿者 /u/Many_Perception_1703
[リンク] [コメント]