TurboQuant論文(ICLR 2026)のKVキャッシュ圧縮を、LLM推論向けに純粋なCで実装したものです。
主要ベクトルをランダム化Hadamard変換+符号ハッシュにより1ビットに圧縮します。注意計算はXOR+popcountで行います。値はそれぞれQ4またはQ2に独立して量子化します。総K+Vは、Gemma 3 4Bで4.9倍〜7.1倍の圧縮となり、32Kコンテキストで最大3.7GBを節約できます。
1ビットの注意コサイン=0.634で、理論的な限界である2/piに一致します。すべてのNEONパスはスカラー参照に対して検証済みです。ASanクリーンで、26のテストスイート。外部依存関係なし。
[リンク] [コメント]




