LLM推論におけるKVキャッシュ圧縮のための、TurboQuant論文（ICLR 2026）の純粋なC実装

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この記事は、LLM推論におけるメモリコストを削減するためのICLR 2026 TurboQuant手法について、純粋なC（NEON付き）による実装を共有しています。
これは、ランダム化したハダマール変換に続く符号ハッシュによりキー（key）ベクトルを1ビットまで圧縮し、XORおよびpopcount演算で注意（attention）を計算します。
値（value）はQ4またはQ2のいずれかに独立に量子化され、Gemma 3 4Bでの総合K+V圧縮率は約4.9x〜7.1xを達成しています。
報告されている結果として、32Kコンテキストで最大約3.7 GBのKVキャッシュ削減があり、1ビットのattentionコサインスコアは0.634で、理論上の上限である2/piと一致しています。
実装は依存関係不要として提示され、スカラー/NEON間のクロスチェック、ASanクリーンなコード、26のテストスイートによって検証されており、コードはGitHubで公開されています。

TurboQuant論文（ICLR 2026）のKVキャッシュ圧縮を、LLM推論向けに純粋なCで実装したものです。

主要ベクトルをランダム化Hadamard変換＋符号ハッシュにより1ビットに圧縮します。注意計算はXOR＋popcountで行います。値はそれぞれQ4またはQ2に独立して量子化します。総K+Vは、Gemma 3 4Bで4.9倍〜7.1倍の圧縮となり、32Kコンテキストで最大3.7GBを節約できます。

1ビットの注意コサイン＝0.634で、理論的な限界である2/piに一致します。すべてのNEONパスはスカラー参照に対して検証済みです。ASanクリーンで、26のテストスイート。外部依存関係なし。