広告

LLM推論におけるKVキャッシュ圧縮のための、TurboQuant論文(ICLR 2026)の純粋なC実装

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事は、LLM推論におけるメモリコストを削減するためのICLR 2026 TurboQuant手法について、純粋なC(NEON付き)による実装を共有しています。
  • これは、ランダム化したハダマール変換に続く符号ハッシュによりキー(key)ベクトルを1ビットまで圧縮し、XORおよびpopcount演算で注意(attention)を計算します。
  • 値(value)はQ4またはQ2のいずれかに独立に量子化され、Gemma 3 4Bでの総合K+V圧縮率は約4.9x〜7.1xを達成しています。
  • 報告されている結果として、32Kコンテキストで最大約3.7 GBのKVキャッシュ削減があり、1ビットのattentionコサインスコアは0.634で、理論上の上限である2/piと一致しています。
  • 実装は依存関係不要として提示され、スカラー/NEON間のクロスチェック、ASanクリーンなコード、26のテストスイートによって検証されており、コードはGitHubで公開されています。

TurboQuant論文(ICLR 2026)のKVキャッシュ圧縮を、LLM推論向けに純粋なCで実装したものです。

主要ベクトルをランダム化Hadamard変換+符号ハッシュにより1ビットに圧縮します。注意計算はXOR+popcountで行います。値はそれぞれQ4またはQ2に独立して量子化します。総K+Vは、Gemma 3 4Bで4.9倍〜7.1倍の圧縮となり、32Kコンテキストで最大3.7GBを節約できます。

1ビットの注意コサイン=0.634で、理論的な限界である2/piに一致します。すべてのNEONパスはスカラー参照に対して検証済みです。ASanクリーンで、26のテストスイート。外部依存関係なし。

https://github.com/quantumaikr/TurboQuant.cpp

投稿者: /u/Suitable-Song-302
[リンク] [コメント]

広告