TurboQuant + TriAttention (C/HIP): llama.cpp における総KVキャッシュ削減 ~6.8×

Reddit r/LocalLLaMA / 2026/4/11

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 本投稿では、AMD/HIP 環境の llama.cpp において 2 つの KV キャッシュ削減手法を組み合わせた結果が報告されています。TurboQuant 圧縮(~5.1×)と TriAttention プルーニング(保持 75%、~1.33×)を併用することで、推定ベースで総計 ~6.8× の KV キャッシュ削減、また 131K コンテキスト時の KV を f16 の 8.2 GiB から ~1.2 GiB にできる見込みです。
  • RX 7900 XTX 上での Qwen3.5-27B に対する TurboQuant 単独ベンチマークでは、強いタスク性能が示されています(例:GSM8K 72.0% vs f16 66%、NIAH 28/28 が 64K まで到達、ツール呼び出し 26/26)。また、速度オーバーヘッドは最小限(~1〜2%)で、パープレキシティへの影響も小さくなっています(4K で +0.02%、16K で -0.9%)。
  • TriAttention は C/ggml で実装されており、NVIDIA/MIT の arXiv 論文に基づいています。Qwen3 ファミリ向けの事前構築済みキャリブレーション統計も含まれていますが、著者は ~6.8× の数値は算術的な積み重ねによる推定であり、検索品質(retrieval quality)までをエンドツーエンドで完全に検証したものではない点を明確にしています。
  • 著者は、(少なくとも把握している限り)llama.cpp における HIP/ROCm 向け TurboQuant 実装はこれが唯一であり、また C/ggml における TriAttention 実装も唯一であると述べています。そして Strix Halo(gfx1201)や RDNA3(gfx1100)上での追加テストをユーザーに呼びかけています。

編集(2026-04-11): 修正 — 私のNIAH 28/28の結果はTurboQuantのみで、TriAttentionの組み合わせではありません。~6.8×という数値は算術的な積み上げ推定(5.12× × 1.33×)であり、検証済みのエンドツーエンド取得(retrieval)主張ではありません。TriAttentionの統合はPPLの経路では有望ですが、取得(retrieval)についてはまだ検証されておらず、特にハイブリッドなアーキテクチャでは未検証です。厳密なテストについてはTheTomのV3分析をご覧ください。

llama.cppでAMD/HIP上において、KVキャッシュ削減手法を2つ組み合わせた結果:

  • TurboQuant KVキャッシュ圧縮(turbo3):~5.1×削減
  • TriAttention KVキャッシュ剪定(75%保持):~1.33×削減
  • 合計(Combined):~6.8×の全体KV削減

131Kコンテキスト時:f16 KV = 8.2 GiB → コンボ ≈ 1.2 GiB。

TurboQuantの数値(Qwen3.5-27B、RX 7900 XTX): - GSM8K:1319問で72.0%(f16は66%) - NIAH:64Kコンテキストまで28/28 - ツール呼び出し:26/26 - PPL:4Kで+0.02%、16Kで-0.9% - スピードオーバーヘッド:約1〜2%

TriAttention は最近のNVIDIA/MITの論文(arXiv:2604.04921)に基づいています。私の実装はC/ggmlであり、実行時にPythonは不要です。Qwen3ファミリー向けの事前ビルド済みキャリブレーション統計が含まれています。

私の知る限り、これは現在、llama.cpp向けHIP/ROCmのTurboQuant実装として唯一のものです。また、TriAttentionについては唯一のC/ggml実装です。

リポジトリ: - TurboQuant(HIP):llama.cpp-turboquant-hip - TriAttention(C/ggml):triattention-ggml - llama.cppの議論:#20969

現在、3人のユーザーがStrix Halo(gfx1201)およびRDNA3(gfx1100)でテストしています。フィードバックやテスト結果を歓迎します。

submitted by /u/Acrobatic_Bee_6660
[link] [comments]

TurboQuant + TriAttention (C/HIP): llama.cpp における総KVキャッシュ削減 ~6.8× | AI Navigate