| tl;dr: Fixes KV-cache rotation for hybrid-attention models like Gemma 4 (Not actually TurboQuant, but you can call it TurboQuant if that makes you feel better) [link] [comments] |
kv-cache : support attention rotation for heterogeneous iSWA by ggerganov · Pull Request #21513 · ggml-org/llama.cpp
Reddit r/LocalLLaMA / 4/8/2026
📰 NewsDeveloper Stack & InfrastructureTools & Practical Usage
Key Points
- llama.cppのPull Request #21513により、Gemma 4のようなハイブリッド(heterogeneous)attentionモデルでのKV-cache回転(rotation)の不具合が修正されます。
- これにより、既存のKV-cache利用時に起きうる回転関連の整合性問題が改善し、推論の安定性が向上することを狙っています。
- 記事では“TurboQuant”のような呼称に言及しつつ、実際にはTurboQuantそのものではなく、主眼はKV-cache回転の対応です。
- ハイブリッドattentionモデルをローカル推論で扱う利用者や開発者にとって、モデル互換性とパフォーマンス維持に寄与する変更です。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.




