私は、Top-K剪定以外のKVキャッシュ最適化について探求してきました。
観察: 剪定は*選択的に*失敗します――いくつかのトークンが、大きな誤差スパイクを引き起こします。
そこで、私は次を試しました:
- エントロピー(選択)
- OLS(再構成)
- SVD(圧縮)
初期結果:
- 低メモリ時に約3×低い誤差
- 誤差スパイクを回避
- 場合によっては、さらに低いメモリ
ブログ: https://jchandra.com/posts/hae-ols/
まだプロトタイプです。ぜひフィードバックが欲しいです。特に、どこで壊れる可能性がありそうか知りたいです。
[リンク] [コメント]



