kv-cache:gggerganov による、異種 iSWA(heterogeneous iSWA)に対する attention rotation のサポート · Pull Request #21513 · ggml-org/llama.cpp

Reddit r/LocalLLaMA / 2026/4/8

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • llama.cppのPull Request #21513により、Gemma 4のようなハイブリッド(heterogeneous)attentionモデルでのKV-cache回転(rotation)の不具合が修正されます。
  • これにより、既存のKV-cache利用時に起きうる回転関連の整合性問題が改善し、推論の安定性が向上することを狙っています。
  • 記事では「TurboQuant」のような呼称に言及しつつ、実際にはTurboQuantそのものではなく、主眼はKV-cache回転の対応です。
  • ハイブリッドattentionモデルをローカル推論で扱う利用者や開発者にとって、モデル互換性とパフォーマンス維持に寄与する変更です。
kv-cache : support attention rotation for heterogeneous iSWA by ggerganov · Pull Request #21513 · ggml-org/llama.cpp

要約: Gemma 4 のようなハイブリッド・アテンション・モデルのための KV-cache 回転を修正

(実際には TurboQuant ではありませんが、気分が良くなるなら TurboQuant と呼んでも構いません)

投稿者: /u/jacek2023
[リンク] [コメント]