kv-cache : support attention rotation for heterogeneous iSWA by ggerganov · Pull Request #21513 · ggml-org/llama.cpp

Reddit r/LocalLLaMA / 4/8/2026

📰 NewsDeveloper Stack & InfrastructureTools & Practical Usage

Key Points

  • llama.cppのPull Request #21513により、Gemma 4のようなハイブリッド(heterogeneous)attentionモデルでのKV-cache回転(rotation)の不具合が修正されます。
  • これにより、既存のKV-cache利用時に起きうる回転関連の整合性問題が改善し、推論の安定性が向上することを狙っています。
  • 記事では“TurboQuant”のような呼称に言及しつつ、実際にはTurboQuantそのものではなく、主眼はKV-cache回転の対応です。
  • ハイブリッドattentionモデルをローカル推論で扱う利用者や開発者にとって、モデル互換性とパフォーマンス維持に寄与する変更です。
kv-cache : support attention rotation for heterogeneous iSWA by ggerganov · Pull Request #21513 · ggml-org/llama.cpp

tl;dr: Fixes KV-cache rotation for hybrid-attention models like Gemma 4

(Not actually TurboQuant, but you can call it TurboQuant if that makes you feel better)

submitted by /u/jacek2023
[link] [comments]