TurboQuant + TriAttention (C/HIP): llama.cpp における総KVキャッシュ削減 ~6.8×

Reddit r/LocalLLaMA / 2026/4/11

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

本投稿では、AMD/HIP 環境の llama.cpp において 2 つの KV キャッシュ削減手法を組み合わせた結果が報告されています。TurboQuant 圧縮（~5.1×）と TriAttention プルーニング（保持 75%、~1.33×）を併用することで、推定ベースで総計 ~6.8× の KV キャッシュ削減、また 131K コンテキスト時の KV を f16 の 8.2 GiB から ~1.2 GiB にできる見込みです。
RX 7900 XTX 上での Qwen3.5-27B に対する TurboQuant 単独ベンチマークでは、強いタスク性能が示されています（例：GSM8K 72.0% vs f16 66%、NIAH 28/28 が 64K まで到達、ツール呼び出し 26/26）。また、速度オーバーヘッドは最小限（~1〜2%）で、パープレキシティへの影響も小さくなっています（4K で +0.02%、16K で -0.9%）。
TriAttention は C/ggml で実装されており、NVIDIA/MIT の arXiv 論文に基づいています。Qwen3 ファミリ向けの事前構築済みキャリブレーション統計も含まれていますが、著者は ~6.8× の数値は算術的な積み重ねによる推定であり、検索品質（retrieval quality）までをエンドツーエンドで完全に検証したものではない点を明確にしています。
著者は、（少なくとも把握している限り）llama.cpp における HIP/ROCm 向け TurboQuant 実装はこれが唯一であり、また C/ggml における TriAttention 実装も唯一であると述べています。そして Strix Halo（gfx1201）や RDNA3（gfx1100）上での追加テストをユーザーに呼びかけています。

編集（2026-04-11）： 修正 — 私のNIAH 28/28の結果はTurboQuantのみで、TriAttentionの組み合わせではありません。~6.8×という数値は算術的な積み上げ推定（5.12× × 1.33×）であり、検証済みのエンドツーエンド取得（retrieval）主張ではありません。TriAttentionの統合はPPLの経路では有望ですが、取得（retrieval）についてはまだ検証されておらず、特にハイブリッドなアーキテクチャでは未検証です。厳密なテストについてはTheTomのV3分析をご覧ください。

llama.cppでAMD/HIP上において、KVキャッシュ削減手法を2つ組み合わせた結果：

TurboQuant KVキャッシュ圧縮（turbo3）：~5.1×削減
TriAttention KVキャッシュ剪定（75%保持）：~1.33×削減
合計（Combined）：~6.8×の全体KV削減

131Kコンテキスト時：f16 KV = 8.2 GiB → コンボ ≈ 1.2 GiB。

TurboQuantの数値（Qwen3.5-27B、RX 7900 XTX）： - GSM8K：1319問で72.0%（f16は66%） - NIAH：64Kコンテキストまで28/28 - ツール呼び出し：26/26 - PPL：4Kで+0.02%、16Kで-0.9% - スピードオーバーヘッド：約1〜2%

TriAttention は最近のNVIDIA/MITの論文（arXiv:2604.04921）に基づいています。私の実装はC/ggmlであり、実行時にPythonは不要です。Qwen3ファミリー向けの事前ビルド済みキャリブレーション統計が含まれています。

私の知る限り、これは現在、llama.cpp向けHIP/ROCmのTurboQuant実装として唯一のものです。また、TriAttentionについては唯一のC/ggml実装です。

リポジトリ： - TurboQuant（HIP）：llama.cpp-turboquant-hip - TriAttention（C/ggml）：triattention-ggml - llama.cppの議論：#20969

現在、3人のユーザーがStrix Halo（gfx1201）およびRDNA3（gfx1100）でテストしています。フィードバックやテスト結果を歓迎します。

submitted by /u/Acrobatic_Bee_6660
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

TurboQuant + TriAttention (C/HIP): llama.cpp における総KVキャッシュ削減 ~6.8×

要点

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透